Data Science – mit Daten Wissen schaffen

»Data Science« oder »Wie sich aus Daten Wissen generieren lässt« – In diesem Blog-Beitrag erklären wir, was wir am Fraunhofer IESE unter Data Science verstehen, wie für uns Data Science und KI zusammenhängen und wie wir als Data Scientists zu Dependable AI beitragen können. Darüber hinaus reißen wir das unserer Meinung nach wichtige Thema »Data Governance« an und skizzieren den Weg zum Data Scientist – natürlich mit Fraunhofer.

Übersetzt bedeutet der Begriff »Data Science« im Deutschen »Datenwissenschaft« – aber was bedeutet das?

Die wörtliche Übersetzung des Begriffs »Data Science« umreißt dessen Bedeutung schon schon ganz gut. Denn bei Data Science geht es darum, aus Daten Wissen zu schaffen. Der Begriff ist übrigens auch nicht ganz neu. Anfangs ging es dabei im Wesentlichen um die Anwendung statistischer und datenanalytischer Verfahren mittels Computern. Heute fassen wir den Begriff etwas breiter. Das gilt insbesondere für die Data Science in der Praxis. Hier werden idealerweise ausgehend von einer relevanten Fragestellung Daten identifiziert, die dabei helfen können, die Fragestellung zu beantworten. Das heißt auch, dass Daten aus unterschiedlichen Quellen und in unterschiedlichen Formaten zu integrieren sind. Im nächsten Schritt müssen die Daten verstanden werden: Es gilt herauszufinden, wie gut die Daten sind, was sie bedeuten und wie man sie interpretieren kann. Darüber hinaus gilt zu klären, ob es Fehler in den Daten gibt, ob sie repräsentativ sind und, ob sie einen Bias (eine Verzerrung) aufweisen. Dann folgt die Datenaufbereitung sowie die Auswahl geeigneter Verfahren zur Modellierung – eine Phase, die oftmals unterschätzt wird, jedoch in vielen Projekten 70-80 % des Aufwands verschlingt. Hier werden die Daten für die Modellierungsphase vorbereitet. Bis zu diesem Punkt sprechen wir auch vom sogenannten »Data Engineering«. Im nächsten Schritt folgen dann die »Data Analytics«.

In einem klassischen Softwareentwicklungsprojekt würde man dann den Algorithmus, also die Vorgehensweise zur Verarbeitung der Daten, schreiben; z. B. wird so unter Berücksichtigung thermodynamischer Zusammenhänge der Verbrennungsvorgang in Software implementiert.

In einem Data-Science-Projekt werden jedoch durch die Verwendung spezieller Algorithmen Modelle erstellt. Diese Modelle sind somit eine durch Daten bestimmte Abstraktion der Realität. Die Qualität der Abstraktion (also das Ausmaß, wie gut das Modell die Realität repräsentiert) hängt somit von den Daten und ihrer Qualität sowie dem verwendeten Algorithmus und seiner Eignung für die Fragestellung ab und nicht davon, ob – um im Beispiel von oben zu bleiben – ein Entwickler die komplexen thermodynamischen Zusammenhänge in Verbrennungsprozessen korrekt verstanden hat.

Zur Erstellung der Modelle werden die Daten dem ausgewählten Algorithmus zur Verfügung gestellt. Das könnte z.B. ein Verfahren des Maschinellen Lernens sein, ein lineares Regressionsmodell zur Berechnung von Prognosen oder auch ein tiefes neuronales Netz zur Klassifikation von Objekten auf Bildern. Jedoch werden nicht alle Daten zur Erstellung des beschriebenen Modells auch verwendet. Ein Teil der Daten – die Trainingsdaten – werden zum Anlernen des Modells verwendet, während ein anderer Teil – die Testdaten – dazu verwendet werden, die Qualität des angelernten Modells (z.B. die Güte der Vorhersage) zu überprüfen.

Ziel ist natürlich, ein möglichst gutes Modell zu erhalten, das für alle Eingabewerte möglichst realistische Ausgabewerte liefert (selbst wenn das Modell den Eingabewert noch nie gesehen hat). Ein Data Scientist benötigt hierzu ein tiefes Verständnis der Mathematik und der Statistik sowie der eingesetzten Algorithmen. Denn jeder Algorithmus hat seine Stärken und Schwächen, stellt spezielle Anforderungen an die Daten und muss ggf. über eine Vielzahl von Parametern, die einen direkten Einfluss auf das Ergebnis haben können, angesteuert werden. Dies macht die Aufgabe eines Data Scientist sehr herausfordernd.

Werden die Modellergebnisse als statistisch gut erachtet und wurde das Modellverhalten von Fachexpert*innen final geprüft und freigegeben, kann das Modell softwaretechnisch in ein Gesamtsystem integriert werden (Deployment). Hierzu ist das Einbinden von Expert*innen des Software- und Data-Engineerings angeraten, da sie die Sicht auf das Gesamtsystem mitbringen und für die notwendige Systemqualität sorgen können.

Doch auch wenn die Modellintegration bereits vorgenommen wurde, muss kontinuierlich überprüft werden, ob die vom Modell getroffenen Vorhersagen/Klassifikationen auch in der Realität richtig sind. Gibt es zu große Abweichungen, muss das Modell mit den in der Zwischenzeit neu aufgelaufenen Daten neu angelernt werden. Dies kann auch automatisiert geschehen, z. B. indem das Modell immer um Mitternacht neu mit Daten angelernt und anschließend automatisch in das Gesamtsystem integriert wird.

Betrachtet man die einzelnen Schritte – von der Datenintegration über die Datenaufbereitung und die Modellerstellung bis hin zum Deployment – so stellt man fest, dass hier unterschiedlichste Kompetenzen notwendig sind, um Data Science betreiben zu können. Somit ist Data Science immer als Teamsport – mit einem Team bestehend aus Menschen mit mathematischem, softwaretechnischem und fachlichem Wissen – anzusehen. Wichtig ist hierbei ein gewisser Grad an Kommunikationsfähigkeit, sowohl innerhalb des Teams als auch in der unerlässlichen Zusammenarbeit mit den Domänenexpert*innen.

Data Science und KI

Mit dem Wissen darum, wie Data Science funktioniert und wie sich mithilfe von Daten Modelle anlernen und in ein Gesamtsystem integrieren lassen, lässt sich leicht der Eindruck erwecken, dass es sich bei den genannten Modellen um intelligente Systeme handelt (z. B. indem ein Assistenzsystem im Fahrzeug gefährliche Situationen im Straßenverkehr erkennt und automatisch bremst). Damit hätten wir also eine Art »Künstliche Intelligenz« geschaffen, denn für den Betrachter sieht es schließlich so aus, als würde das System eigenständig Entscheidungen treffen. Doch ist das wirklich so? Ist diese KI, die wir mit unseren Modellen erschaffen, wirklich intelligent?

Dazu gibt es selbst unter KI-Experten die gegensätzlichsten Sichtweisen. Um diese Frage zu beantworten, müssten wir zunächst verstehen, wie die z.B. mit Deep Learning angelernten Modelle tatsächlich funktionieren. Doch genau hier liegt das Problem. Die Modelle sind für Menschen nicht mehr einfach nachzuvollziehen bzw. zu überprüfen! Bevor wir also die Frage nach Künstlicher Intelligenz stellen, müssen wir daher zunächst erörtern, was mit den zuvor erstellten Modellen passiert. Es gilt zu klären, wie die Modelle eines Fahrassistenzsystems entscheiden können, ob ein Fahrzeug abgebremst werden muss und wie stark dieser Bremsvorgang sein soll.

Data Science im Kontext von Dependable AI

Gerade in solchen sicherheitskritischen Anwendungen, durch deren Modell- bzw. KI-Verhalten Menschen zu Schaden kommen können, ist es wichtig, die Modelle besser zu verstehen. Da dies momentan jedoch noch nicht in der notwendigen Tiefe möglich ist, ist es unerlässlich, Sicherheitsbarrieren in die KI einzubauen. Genau das tun wir am Fraunhofer IESE durch eine abteilungsübergreifende Zusammenarbeit zwischen Data Scientists und Safety Engineers. Hier arbeiten Expert*innen aus beiden Bereichen an Lösungen, um das Risiko von nicht akzeptablen Fehlern und Fehlverhalten von KI-Systemen zu minimieren. Diese am IESE entwickelte verlässliche KI – Dependable AI – fokussiert sich auf funktionale Sicherheit (Safety), insbesondere im Bereich autonomes Fahren. Die von uns entwickelten Lösungen lassen sich jedoch auch auf andere sicherheitskritische Anwendungen, z.B. im medizinischen Bereich, übertragen.

Hören Sie auch in unserem Podcast MORGEN DENKER mehr zu Data Science im Kontext von Dependable AI. Im Interview: Dr. Andreas Jedlitschka, Department Head Smart Digital Solutions am Fraunhofer IESE

Podcast Data Science – die Macht der Daten

»Data Governance« als relevantes Thema für zukunftsträchtige Unternehmen

Unternehmen, die zukunftsfähig sein wollen und sich am Markt behaupten wollen, sollten sich möglichst zügig dem Thema »Data Governance« widmen. Denn hier sind aktuell noch viele Herausforderungen zu meistern. Das betrifft nicht nur die gesetzlichen Anforderungen, sondern auch Datenmengen, Aktualität, Vertrauenswürdigkeit, Zugangsrechte, Metadaten (Verschlagwortung), Indizierung etc.

Das bedingt, dass datenspezifische Aspekte stärker in der Unternehmensstrategie berücksichtigt werden (hier wird bereits auch schon vom Öl des 21. Jahrhunderts gesprochen). Dazu gehört unserer Meinung nach natürlich auch die Etablierung von Data-Science-Teams und entsprechender Verantwortlichkeiten, z. B. durch die Einrichtung von CDOs, die von der IT getrennt sind. Denn CDOs haben durch eine zentrale Platzierung in der Organisation die Möglichkeit, eine Strategie zu entwickeln und zu verantworten. Dazu müssen CDOs auch über ausgeprägte kommunikative Skills verfügen, die Fähigkeit besitzen, andere zu begeistern und auch den Mut haben, das Alte über Bord zu werfen und mit etwas Neuem zu beginnen.

Um Mitarbeitende in Unternehmen hinsichtlich des Themas »Data Science« zu sensibisieren und somit fit für die Zukunft zu machen, bietet die Fraunhofer-Gesellschaft folgende Möglichkeiten an:

Schulungs-/Zertifizierungmöglichkeiten im Bereich Data Science
Hier bietet die Fraunhofer-Allianz Big Data und KI ein entsprechendes Schulungsprogramm an. Teilnehmende können sich über verschiedene Stufen ausbilden lassen. Ausgehend vom Data Scientist (Basis-Zertifikat) über domänen- oder fachspezifische Weiterbildungen bis zum Senior Data Scientist ist hierbei alles möglich. Die Zertifikate sind akkreditiert und die Inhalte werden von einem Fachausschuss, in dem auch Industrievertreter sitzen, regelmäßig überprüft. Besonders entscheidend ist jedoch, dass nach einem theoretischen Einstieg die entsprechende Praxiserfahrung gesammelt werden muss. Dazu eignen sich insbesondere kleine Projekte, die ggf. unter Anleitung erfahrener Data Scientists bearbeitet werden.

Support bei Anliegen rund um Data Science
Neben der Ausbildung zum Data Scientist bietet Fraunhofer Unternehmen bei ihren Data-Science-Vorhaben selbstverständlich auch professionelle Unterstützung durch hauseigene Expert*innen an.

Unsere Leistungen am Fraunhofer IESE lassen sich hierbei beispielsweise in drei Säulen untergliedern:

Unsere Potenzialanalyse
Mit unserer Potenzialanalyse helfen wir Unternehmen von der Ideenfindung bis zur Konzeptentwicklung. Wir haben schon oft erlebt, dass die Ergebnisse der Potenzialanalyse Eingang in Unternehmensstrategien gefunden haben. Die Potenzialanalyse zeigt allerdings auch auf, wo Nachholbedarf existiert, z.B. bei den Daten, der Infrastruktur oder den Kompetenzen. Die Ergebnisse helfen auch dabei, Entscheidungen im Sinne von Make-or-Buy vorzubereiten.
Agile Prototypenentwicklung
Die agile Prototypenentwicklung erfolgt typischerweise nach einer Potenzialanalyse. Hier wird in enger Zusammenarbeit mit dem betreffenden Unternehmen ein Konzept bis hin zu einem Prototypen verfeinert. Nach erfolgreicher Bewertung des Prototyps kann das Roll-out und der Betrieb unterstützt werden. Alternativ wird das Unternehmen während der Zusammenarbeit durch Kompetenzaufbau in die Lage versetzt, das Roll-out und den Betrieb selbstständig zu übernehmen.
Kompetenzaufbau
Neben den bereits genannten Schulungen der Fraunhofer-Allianz Big Data und KI, die unter Beteiligung des Fraunhofer IESE zum zertifizierten Data Scientist ausbilden, bieten wir – das Fraunhofer IESE – auch eigene, tiefergehende Schulungen an, z. B. zur Potenzialanalysemethode, zu Safe AI oder zur Datenaufbereitung.

Mehr zu Data Science (speziell im Kontext von Dependable AI)

Einen umfassenden Überblick über »Data Science« und »Dependable AI« sowie dafür passende Lösungsbausteine des Fraunhofer IESE finden Sie hier:

Morgen Denker-Podcast (Fraunhofer IESE)

Darüber hinaus greifen wir das Thema Dependable AI auch in unserem MORGEN DENKER-Podcast zum 25. Jubiläum des Fraunhofer IESE auf. Hören Sie gerne mal rein.

Falls Sie Fragen zu »Data Science« haben, nach Partnern im Rahmen öffentlich geförderter Forschungsvorhaben suchen oder ein konkretes Anliegen hinsichtlich der Data Governance Ihres Systems haben, so zögern Sie nicht, unseren konkreten Ansprechpartner zu kontaktieren!

Dr. Andreas Jedlitschka (Department Head »Data Science«)