Zurück

Einführung in Orange - Data Mining

Daten kinderleicht visualisieren mit Orange

Orange ist ein grafisches Open Source Programm, das für Data Mining, Machine Learning und zur Datenvisualisierung eingesetzt wird. Es ist für Windows, Mac OS X und verschiedene Linuxsysteme erhältlich. Mit nur wenigen Klicks können Datenbanken oder einfache Datenstrukturen visualisiert und ausgewertet werden. Durch seinen einfachen Aufbau ist Orange besonders für Neueinsteiger interessant. Es bietet aber auch Fortgeschrittenen viele spannende Features.

Komplexe Auswertungen einfach gestalten 

Anhand von Widgets können Basisfunktionen, wie z. B. das Einlesen von Daten, die Anzeige von Tabellen oder die Visualisierung von Daten ausgeführt werden. Darüber hinaus können in Orange individuelle Widgets entwickelt werden, die auf die jeweilige Problemstellung des Benutzers zugeschnitten sind.

Dank Drag & Drop ist die Bedienung kinderleicht. So können komplexe Tools auf einfache Weise in den Orange-Canvas gezogen und verknüpft werden. Zudem sind Veränderungen durch die interaktive Visualisierung direkt nachvollziehbar. Nach einer kurzen Eingewöhnungszeit bezüglich der Symbolik und den verschiedenen Kombinationsmöglichkeiten der Tools, geht die Bedienung sehr intuitiv von der Hand. Ein kleiner Kritikpunkt ist, dass der Orange-Canvas bei komplexen Abfragen mit mehreren Visualisierungen unübersichtlich wird. Durch die allgemein einfache Handhabung kann man allerdings über diesen Fehler hinwegsehen. 
Bei der Visualisierung gibt es eine große Auswahl an Möglichkeiten, welche von Balkendiagrammen über Liniendiagramme bis hin zu Streudiagrammen reichen.

Natürlich eignet sich Orange auch für Leute mit vorhandenen Programmierkenntnissen. Das Programm verfügt über die Möglichkeit, Python Scripts über ein Terminal Fenster laufen zu lassen und bietet Programmierern Entwicklungsumgebungen wie Pycharm oder Shells wie iPython.

Ein paar Beispiele

Als Einstieg wird im untenstehenden Beispiel die Verknüpfung einer Datei mit einer Tabelle gezeigt. Die zwei Elemente wurden per Drag & Drop in die noch freie Arbeitsfläche gezogen. Zieht man einen Strich mit der Maus von einem Widget zum Nächsten, werden diese miteinander verbunden. Als File wurde die Beispieldatei „Titanic“ verwendet. Die Datei des tragischen Schiffsunglücks enthält 2201 Reihen. Die Datenspalten gliedern sich in Überlebende, Status, Alter und Geschlecht. Diese Informationen erhält man durch einen Doppelklick auf „Data Table“. In diesem Fenster können weitere Einstellungen vorgenommen werden, z. B. die farbige Darstellung von Instanzen.

Im nächsten Beispiel wird das File in „Titanic“ umbenannt und die Datei mit der Visualisierung Säulendiagramm verbunden. Per Doppelklick erhält man das Diagramm. Im Beispiel wird angezeigt, wie viele Passagiere der ersten bis dritten Klassen und der Besatzung das Unglück überlebt haben. Mit wenigen Änderungen bei Variable und Group by können Abfragekriterien geändert werden, um ein neues Säulendiagramm zu generieren.

Das letzte Beispiel zeigt die Einbindung eines Python Scripts. Hierzu wird das Widget zwischen File und Data Table geschaltet. Per Doppelklick kann der Python-Editor geöffnet werden, hier im Beispiel ein Hello World-Programm.

Das Verstehen steht im Mittelpunkt

Die Einsatzmöglichkeiten von Orange sind vielfältig. So ist die Fähigkeit, Datenbanken in Sprachen wie MySQL auszuwerten ein großes Plus von Orange. Dadurch, dass keine Programmiervorkenntnisse benötigt werden, kann der Fokus auf das Verstehen des Data Minings gelegt werden. Deswegen ist Orange vor allem bei Schulklassen und Studenten, die sich mit dieser Materie auseinandersetzen, beliebt.

Fazit

Mit Orange ist die Auswertung von Daten wesentlich einfacher. Bei der Verwendung von Software der Konkurrenz, ist eine erste Einarbeit in die Syntax erforderlich, wohingegen bei Orange gleich durch gestartet werden kann.  Der Fokus kann durch die simple Darstellung und Handhabung auf das Data Mining gelegt werden - um das es letztendlich geht. Orange schafft den Spagat, dass das Design unkompliziert wirkt, durch die zahlreichen Einstellmöglichkeiten aber auch komplizierte Abfragen bewältigt werden können.

 

 

Kommentare
Trackback-URL:

Noch keine Kommentare. Seien Sie der Erste.

Ancud IT-Beratung GmbH
Glockenhofstraße 47 
90478 Nürnberg 

Tel.: +49 911 2525 68-0