Praktische Datenvorbereitung - Umgang mit der fehleranfälligsten Phase in Data-Science-Projekten

Die Phase, die in Data-Science-Projekten den meisten Aufwand verschlingt, ist die der Datenvorbereitung. Es gibt kein Standardvorgehen, das alle potenziellen Datenvorbereitungsfragen abdeckt. In diesem Seminar lernen Sie, wie Sie die Effizienz der Datenvorbereitung erhöhen können, um mittels Datenanalysen schnellere Einblicke in Ihre Daten zu gewinnen.

Aus prozesstechnischer Sicht beschreibt der CRoss-Industry Standard Process for Data Mining (CRISP-DM) sechs wichtige Schritte für jedes Datenanalyseprojekt. Nachdem ein Business Understanding (Geschäftsverständnis) erreicht ist, müssen die erforderlichen Daten identifiziert und semantisch verstanden werden (Data Understanding / Datenverständnis). Dies erfordert Domänenwissen ebenso wie Wissen über Data Engineering und Datenanalyse. Das Datenverständnis ist deshalb der Startpunkt für die Datenaufnahme und die Datenvorbereitung.

Ziel des Seminars

In diesem praxisorientierten Seminar lernen Sie, wie Sie die Daten für Ihre Datenanalyseprojekte vorbereiten können. Basierend auf konkreten Beispielen und unserer Erfahrung aus einer Vielzahl von Projekten zeigen wir Ihnen, welche Vorbehalte und möglichen Lösungsansätze es für die Datenvorbereitung gibt. Sie lernen die Umsetzung von Datenvorbereitungsschritten mit Jupyter Notebooks.

Sie werden verstehen, warum die Datenvorbereitungsphase in CRISP-DM notwendig ist. Außerdem lernen Sie die Methoden und Werkzeuge kennen, die für die Beurteilung der Datenqualität erforderlich sind, und erfahren, wie häufig auftretende Probleme entschärft werden können.

Inhalt des Seminars

Das Seminar deckt folgende Themen ab:
  • Datenvorbereitung
  • Beurteilung der Datenqualität und Strategien zur Risikominimierung
  • praktische Anwendung mit Jupyter Notebooks