{"id":12315,"date":"2024-08-01T14:37:53","date_gmt":"2024-08-01T12:37:53","guid":{"rendered":"https:\/\/www.iese.fraunhofer.de\/blog\/?p=12315"},"modified":"2024-08-01T14:37:53","modified_gmt":"2024-08-01T12:37:53","slug":"datenqualitaet-machine-learning","status":"publish","type":"post","link":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/","title":{"rendered":"Datenqualit\u00e4t und Kausalit\u00e4t bei auf Machine Learning basierender Software"},"content":{"rendered":"<p class=\"lead\">Eine gute Datenqualit\u00e4t ist entscheidend f\u00fcr die Zuverl\u00e4ssigkeit von Systemen, die auf Machine Learning und K\u00fcnstlicher Intelligenz basieren. Data Scientists verbringen daher die meiste Zeit damit, Daten vorzubereiten und Probleme mit der Datenqualit\u00e4t zu l\u00f6sen. In diesem Blogbeitrag erl\u00e4utert unser KI-Experte Dr. Julien Siebert das Potenzial kausalit\u00e4tsbasierter Methoden, R\u00fcckschl\u00fcsse auf die Datenqualit\u00e4t zu ziehen und den Umgang mit Datenqualit\u00e4tsproblemen zu unterst\u00fctzen.<\/p>\n<h2>Was ist anders bei KI-\/ML-basierter Software?<\/h2>\n<p>Anwendungen und Systeme, die auf K\u00fcnstlicher Intelligenz (KI), Machine Learning (ML), Data Mining oder Statistik basieren, sind Softwarekomponenten, bei denen die Entscheidungsfindung nicht klassisch programmiert wird, sondern auf einem oder mehreren Entscheidungsmodellen beruht, die entweder automatisch (z.B. durch Lernen oder Data Mining) oder auf Basis von Expertenhypothesen entwickelt werden k\u00f6nnen. Datengetriebene Methoden werden in der Regel dort eingesetzt, wo die klassische \u00bbregelbasierte\u00ab Programmierung an ihre Grenzen st\u00f6\u00dft (siehe z.B. Computer Vision oder Natural Language Processing). Als Folge k\u00f6nnen die Modelle sehr komplex, d.h. nichtlinear sein. Dies bedeutet, dass es schwierig ist, zu erkl\u00e4ren und zu verstehen, wie die internen Entscheidungen getroffen werden, und dass eine kleine St\u00f6rung der Eingaben zu drastischen \u00c4nderungen der Ausgaben f\u00fchren kann (siehe Adversarial Examples). Au\u00dferdem kann die Anzahl der m\u00f6glichen Eingaben nahezu unbegrenzt sein (z.B. alle m\u00f6glichen Bilder oder Texte). All dies macht das Testen solcher Systeme schwierig.<\/p>\n<h2>Datenqualit\u00e4t: Trainingsdaten sind nur ein Ausschnitt der Realit\u00e4t<\/h2>\n<p>Die Datenqualit\u00e4t spielt sowohl bei der Entwicklung (\u00bbTraining\u00ab) als auch bei der Bewertung der Systemqualit\u00e4t eine wichtige Rolle. Zun\u00e4chst ist es wichtig zu erkennen, dass Daten nicht die Realit\u00e4t sind. Daten werden zu einem bestimmten Zweck gesammelt. Als solche bieten sie nur eine vereinfachte Sicht auf das reale System, und einige Aspekte bleiben unber\u00fccksichtigt (siehe Abbildung 1). Bei der Entwicklung datengetriebener Software gehen wir davon aus, dass wir Entscheidungen allein auf der Grundlage der Informationen treffen k\u00f6nnen, die in den Daten enthalten sind. Die G\u00fcltigkeit dieser Annahme h\u00e4ngt von der Qualit\u00e4t der Daten ab.<\/p>\n<figure id=\"attachment_12317\" aria-describedby=\"caption-attachment-12317\" style=\"width: 1202px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-12317 size-full\" src=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/system-data-model.svg\" alt=\"Schaubild Datenqualit\u00e4t f\u00fcr Machine Learning\" width=\"1202\" height=\"683\" \/><figcaption id=\"caption-attachment-12317\" class=\"wp-caption-text\">Abbildung1: Die gesammelten Daten bieten nur eine Sichtweise auf das System. X1, X2 und Y sind gemessene Variablen (d. h. sie geh\u00f6ren zu den verf\u00fcgbaren gesammelten Daten), aber C ist es nicht. Die Pfeile stellen kausale Effekte dar, die im System auftreten.<\/figcaption><\/figure>\n<h2>Ursachen f\u00fcr Probleme mit der Datenqualit\u00e4t<\/h2>\n<p>Datenqualit\u00e4t ist ein vielschichtiges Thema, doch vereinfacht ausgedr\u00fcckt k\u00f6nnen Probleme entweder bei der Datenerfassung (z. B. defekter Sensor) oder im System selbst (z. B. Ausfall einer Komponente, \u00c4nderung der Systemumgebung) auftreten. Eine M\u00f6glichkeit, die Robustheit der entwickelten datengetriebenen Software gegen\u00fcber Datenqualit\u00e4tsproblemen zu testen und zu verbessern, besteht darin, die Daten zu erg\u00e4nzen oder Fehler einzuf\u00fcgen und das erwartete Verhalten zu korrigieren. Je nach Kenntnis und Verst\u00e4ndnis des zugrundeliegenden Systems und des Datenerhebungsprozesses kann die Simulation von Datenqualit\u00e4tsm\u00e4ngeln auf beiden Ebenen mehr oder weniger komplex sein.<\/p>\n<h2>Datenerweiterung<\/h2>\n<p>In der Bildverarbeitung ist es inzwischen \u00fcblich, die Trainingsdaten w\u00e4hrend der Trainingsphase zu erweitern. Beispielsweise kann ein Bild gedreht, beschnitten, in Kontrast und Helligkeit ver\u00e4ndert werden usw. (siehe Abbildung 2). Ziel ist es, das System gegen\u00fcber diesen Ver\u00e4nderungen robust zu machen. Die zugrundeliegende Hypothese ist, dass diese Ver\u00e4nderungen die Beziehung zwischen den Eingaben und den erwarteten Entscheidungen nicht beeinflussen. Es handelt sich um \u00c4nderungen, die den Prozess der Datenerhebung betreffen, nicht aber das System selbst. In gewisser Weise \u00e4hnelt dies dem Metamorphic Testing, bei dem Testf\u00e4lle generiert werden, von denen erwartet wird, dass eine bestimmte (metamorphic) Beziehung zwischen Input und Output bestehen bleibt.<\/p>\n<figure id=\"attachment_12322\" aria-describedby=\"caption-attachment-12322\" style=\"width: 965px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-12322 size-full\" src=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Datenerweiterung-Hund.png\" alt=\"Beispiele f\u00fcr Datenqualit\u00e4t bei Datenerweiterung\" width=\"965\" height=\"431\" srcset=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Datenerweiterung-Hund.png 965w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Datenerweiterung-Hund-400x179.png 400w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Datenerweiterung-Hund-698x312.png 698w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Datenerweiterung-Hund-768x343.png 768w\" sizes=\"auto, (max-width: 965px) 100vw, 965px\" \/><figcaption id=\"caption-attachment-12322\" class=\"wp-caption-text\">Abbildung 2. Beispiele f\u00fcr Datenerweiterung. Obwohl sich das Bild \u00e4ndert, bleibt die Beziehung zwischen dem System und der Entscheidung die gleiche. Hier soll eine Bildklassifizierungssoftware weiterhin einen Hund erkennen. Bildquelle: Chen, Kornblith, Hinton (2020) <a href=\"#_ftn1\" name=\"_ftnref1\">[1]<\/a>.<\/figcaption><\/figure>\n<h2>Wenn sich etwas \u00e4ndert<\/h2>\n<p>Datenqualit\u00e4tsprobleme k\u00f6nnen auch auftreten, wenn sich das System oder seine Umgebung \u00e4ndert. Drift und Novelty sind solche Probleme (\u00bbNovelty\u00ab ist ein Ausrei\u00dfer, der nicht auf ein Problem bei der Datenerfassung zur\u00fcckzuf\u00fchren ist, sondern auf eine tats\u00e4chliche \u00c4nderung oder ein neues Verhalten des Systems). Der Grund, warum dies problematisch sein kann, ist, dass die Software nun au\u00dferhalb des Bereichs ihrer Trainingsdaten arbeitet und extrapolieren muss. Wenn man Gl\u00fcck hat, bleibt die Art der Beziehung zwischen Eingabe- und Ausgabedaten gleich. Vielleicht verschiebt sich der Wertebereich, aber das erstellte Modell kann immer noch die Beziehung erfassen, die es erfassen soll, auch wenn es extrapoliert.<\/p>\n<p>Als Beispiel kann man sich eine Bildklassifikationssoftware vorstellen, die auf die Erkennung deutscher Verkehrsschilder trainiert wurde und in Frankreich eingesetzt wird (siehe Abbildung 3). Einige Verkehrszeichen, wie z.B. Gefahrenzeichen, sehen in den beiden L\u00e4ndern etwas anders aus. Aber eine Beziehung wie \u00bbDreieck + Rot = Gefahr\u00ab, die die Klassifizierungssoftware lernen konnte, bleibt bestehen.<\/p>\n<p>Was passiert, wenn sich das Verh\u00e4ltnis zwischen Eingabe- und Ausgabedaten \u00e4ndert? Im Beispiel der Software zur Klassifizierung von Verkehrszeichen w\u00e4re es m\u00f6glich, das System in einem anderen Land zu verwenden, z. B. in Australien, wo die Formen der Verkehrszeichen v\u00f6llig anders sind als in Europa. Die Relation \u00bbDreieck + Rot = Gefahr\u00ab w\u00e4re hier dann nicht mehr g\u00fcltig. (Ein detaillierter Vergleich der Verkehrszeichen weltweit ist zu finden unter <a href=\"https:\/\/en.wikipedia.org\/wiki\/Traffic_signs_by_country\" target=\"_blank\" rel=\"noopener\">https:\/\/en.wikipedia.org\/wiki\/Traffic_signs_by_country<\/a>.)<\/p>\n<figure id=\"attachment_12324\" aria-describedby=\"caption-attachment-12324\" style=\"width: 2783px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-12324 size-full\" src=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/example-causality-road-signs.svg\" alt=\" Beispiel f\u00fcr Datenqualit\u00e4t, Kausalit\u00e4t und Machine Learning anhand von Verkehrsschildern\" width=\"2783\" height=\"1294\" \/><figcaption id=\"caption-attachment-12324\" class=\"wp-caption-text\">Abbildung 3: Beispiel f\u00fcr Datenqualit\u00e4t, Kausalit\u00e4t und Machine Learning anhand von Verkehrsschildern<\/figcaption><\/figure>\n<h2>Wo datengetriebene Ans\u00e4tze Schwierigkeiten haben<\/h2>\n<p>W\u00e4ren die Daten repr\u00e4sentativ, br\u00e4uchte man sich theoretisch keine Sorgen \u00fcber Datenqualit\u00e4tsprobleme wie Drift (oder \u00fcberhaupt \u00fcber Datenqualit\u00e4tsprobleme) zu machen.<\/p>\n<p>Das erste Problem besteht darin, dass die gesammelten Daten selten repr\u00e4sentativ f\u00fcr das gesamte Spektrum dessen sind, was im System passieren kann: Ausrei\u00dfer sind definitionsgem\u00e4\u00df selten; Drift kann \u00fcber die Zeit auftreten und in den Daten nicht erfasst werden; Werte k\u00f6nnen fehlen; die gesammelten Daten k\u00f6nnen frei von Rauschen sein, w\u00e4hrend die tats\u00e4chlichen Daten es nicht sind, usw.<\/p>\n<p>Das zweite Problem liegt in den Annahmen dar\u00fcber, wie die Daten im System erzeugt werden, d. h. \u00fcber die kausalen Effekte im System. Die meisten der heute verwendeten datengetriebenen Methoden (z. B. Maschinelles Lernen) gehen von einer sehr vereinfachten Annahme \u00fcber die Kausalit\u00e4t aus: Alle Eingaben sind voneinander unabh\u00e4ngig, d. h. sie beeinflussen sich nicht gegenseitig oder werden nicht von externen (nicht gemessenen) Einflussfaktoren beeinflusst.<\/p>\n<p>Rein datenbasierte Methoden enthalten keine Informationen dar\u00fcber, wie sich die Daten \u00e4ndern k\u00f6nnen, und sind daher anf\u00e4llig f\u00fcr Datenqualit\u00e4tsprobleme wie Drift oder Novelty.<\/p>\n<h2>Wo kausale Modellierung und Inferenz helfen k\u00f6nnen<\/h2>\n<p>Die Ber\u00fccksichtigung der Kausalit\u00e4t ist nicht einfach, vor allem, wenn die gesammelten Daten die einzigen verf\u00fcgbaren Informationen \u00fcber ein System sind. W\u00e4ren die internen Mechanismen des Systems bekannt, w\u00e4re ein nicht datengetriebener Modellierungsansatz (manchmal auch \u00bbFirst Principles Modeling\u00ab genannt) wahrscheinlich besser geeignet.<\/p>\n<p>Hier kommen kausale Methoden (kausale Inferenz, kausale Entdeckung) ins Spiel. Sie erm\u00f6glichen es, kausale Annahmen zu explizieren und Schlussfolgerungen \u00fcber kausale Effekte zu ziehen <a href=\"#_ftn2\" name=\"_ftnref4\">[2]<\/a>. Es wird zunehmend anerkannt, dass die Vertrauensw\u00fcrdigkeit und Zuverl\u00e4ssigkeit von KI-basierten Systemen Annahmen und Schlussfolgerungen \u00fcber Kausalit\u00e4t beinhalten muss <a href=\"#_ftn3\" name=\"_ftnref5\">[3]<\/a><a href=\"#_ftn6\" name=\"_ftnref6\">[4]<\/a>.<\/p>\n<p>Die Nutzung eines Kausaldiagramms kann ebenfalls bei der Identifizierung von Datenqualit\u00e4tsproblemen helfen. Das Diagramm in Abbildung 3 ist zwar vereinfacht, hilft aber zu verstehen, woher eine Abweichung kommen kann und wie darauf zu reagieren ist. Auch andere Qualit\u00e4tsprobleme k\u00f6nnen mithilfe von Kausaldiagrammen erkl\u00e4rt werden: fehlende Werte <a href=\"#_ftn7\" name=\"_ftnref7\">[5]<\/a><a href=\"#_ftn8\" name=\"_ftnref8\">[6]<\/a>, Ausrei\u00dfer<a href=\"#_ftn9\" name=\"_ftnref9\"> [7]<\/a> oder auch Fairness <a href=\"#_ftn10\" name=\"_ftnref10\">[8]<\/a>.<\/p>\n<h2>Fazit: Kausalit\u00e4tsbasierte Methoden bieten Chancen f\u00fcr Machine Learning und ihre Datenqualit\u00e4t<\/h2>\n<p>Mit der Entwicklung datengetriebener Software und der zunehmenden Abh\u00e4ngigkeit von ihr steigt der Bedarf an Verl\u00e4sslichkeit und Vertrauen. W\u00e4hrend sich Data Scientists und AI\/ML Engineers schon lange mit Fragen der Datenqualit\u00e4t besch\u00e4ftigen, erm\u00f6glichen Kausaldiagramme und kausalit\u00e4tsbasierte Methoden nun eine fundierte Diskussion und (automatisierte) Argumentation \u00fcber Datenqualit\u00e4t, Zuverl\u00e4ssigkeit und Vertrauen in datengetriebener Software.<\/p>\n<div class=\"info-box\">\n<p>Mehr \u00fcber das Thema Kausalit\u00e4t:<br \/>\n<a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/causal-inference\/\">https:\/\/www.iese.fraunhofer.de\/blog\/causal-inference\/<\/a><\/p>\n<\/div>\n<h2>Bibliografie<\/h2>\n<p><a href=\"#_ftnref1\" name=\"_ftn1\">[1]<\/a> Chen, T., Kornblith, S., Norouzi, M., &amp; Hinton, G. (2020, November). A simple framework for contrastive learning of visual representations. In <em>International conference on machine learning<\/em> (pp. 1597-1607). PMLR.\u00a0 <a href=\"https:\/\/proceedings.mlr.press\/v119\/chen20j.html\" target=\"_blank\" rel=\"noopener\">https:\/\/proceedings.mlr.press\/v119\/chen20j.html<\/a><\/p>\n<p><a href=\"#_ftnref2\" name=\"_ftn4\">[2]<\/a> Pearl, J. (2019). The seven tools of causal inference, with reflections on machine learning. <em>Communications of the ACM<\/em>, <em>62<\/em>(3), 54-60.<\/p>\n<p><a href=\"#_ftnref3\" name=\"_ftn5\">[3]<\/a> Ganguly, N., Fazlija, D., Badar, M., Fisichella, <em>et al.<\/em> (2023). A review of the role of causality in developing trustworthy ai systems. <em>arXiv preprint arXiv:2302.06975<\/em>.<\/p>\n<p><a href=\"#_ftnref6\" name=\"_ftn6\">[4]<\/a> Meyer-Vitali, A. (2024). AI Engineering for Trust by Design. <em>12th International Conference on Model-Based Software and Systems Engineering (MODELSWARD 2024)<\/em>, 357-364.<\/p>\n<p><a href=\"#_ftnref5\" name=\"_ftn7\">[5]<\/a> Infante-Rivard C, &amp; Cusson A. (2018). Reflection on modern methods: selection bias-a review of recent developments<em>. Int J Epidemiol<\/em>., 47(5):1714-1722.<\/p>\n<p><a href=\"#_ftnref8\" name=\"_ftn8\">[6]<\/a> Almeida RJ, Adriaans G, &amp; Shapovalova Y. (2020). Graphical Causal Models and Imputing Missing Data: A Preliminary Study. <em>Information Processing and Management of Uncertainty in Knowledge-Based Systems<\/em>, 1237, 485-496.<\/p>\n<p><a href=\"#_ftnref9\" name=\"_ftn9\">[7]<\/a> Budhathoki, K., Minorics, L., Bl\u00f6baum, P., &amp; Janzing, D. (2022). Causal structure-based root cause analysis of outliers. In <em>International Conference on Machine Learning<\/em> (pp. 2357-2369). PMLR.<\/p>\n<p><a href=\"#_ftnref10\" name=\"_ftn10\">[8]<\/a> Plecko, D., &amp; Bareinboim, E. (2022). Causal fairness analysis. <em>arXiv preprint arXiv:2207.11385<\/em>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Eine gute Datenqualit\u00e4t ist entscheidend f\u00fcr die Zuverl\u00e4ssigkeit von Systemen, die auf Machine Learning und K\u00fcnstlicher Intelligenz basieren. Data Scientists verbringen daher die meiste Zeit damit, Daten vorzubereiten und Probleme mit der Datenqualit\u00e4t zu l\u00f6sen. In diesem Blogbeitrag erl\u00e4utert unser&#8230;<\/p>\n","protected":false},"author":66,"featured_media":12330,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[177],"tags":[104,415,296],"coauthors":[214],"class_list":["post-12315","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-kuenstliche-intelligenz","tag-data-analytics","tag-dependable-ai-verlaessliche-ki","tag-machine-learning"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.5 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Datenqualit\u00e4t und Kausalit\u00e4t bei auf Machine Learning basierender Software - Blog des Fraunhofer IESE<\/title>\n<meta name=\"description\" content=\"Datenqualit\u00e4t spielt beim Machine Learning eine wichtige Rolle. Wir erkl\u00e4ren, was Causal AI, Datenqualit\u00e4t und ML miteinander zu tun haben.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Datenqualit\u00e4t und Kausalit\u00e4t bei auf Machine Learning basierender Software - Blog des Fraunhofer IESE\" \/>\n<meta property=\"og:description\" content=\"Datenqualit\u00e4t spielt beim Machine Learning eine wichtige Rolle. Wir erkl\u00e4ren, was Causal AI, Datenqualit\u00e4t und ML miteinander zu tun haben.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/\" \/>\n<meta property=\"og:site_name\" content=\"Fraunhofer IESE\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/FraunhoferIESE\/\" \/>\n<meta property=\"article:published_time\" content=\"2024-08-01T12:37:53+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/iStock-1148438339.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1920\" \/>\n\t<meta property=\"og:image:height\" content=\"1047\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Dr. Julien Siebert\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@FraunhoferIESE\" \/>\n<meta name=\"twitter:site\" content=\"@FraunhoferIESE\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Dr. Julien Siebert\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"8\u00a0Minuten\" \/>\n\t<meta name=\"twitter:label3\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data3\" content=\"Dr. Julien Siebert\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/\"},\"author\":{\"name\":\"Dr. Julien Siebert\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/person\\\/96d3d2ce62a13a8ee470ea948601ff28\"},\"headline\":\"Datenqualit\u00e4t und Kausalit\u00e4t bei auf Machine Learning basierender Software\",\"datePublished\":\"2024-08-01T12:37:53+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/\"},\"wordCount\":1550,\"publisher\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/04\\\/iStock-1148438339.jpg\",\"keywords\":[\"Data Analytics\",\"Dependable AI \\\/ Verl\u00e4ssliche KI\",\"Machine Learning\"],\"articleSection\":[\"K\u00fcnstliche Intelligenz\"],\"inLanguage\":\"de\"},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/\",\"name\":\"Datenqualit\u00e4t und Kausalit\u00e4t bei auf Machine Learning basierender Software - Blog des Fraunhofer IESE\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/04\\\/iStock-1148438339.jpg\",\"datePublished\":\"2024-08-01T12:37:53+00:00\",\"description\":\"Datenqualit\u00e4t spielt beim Machine Learning eine wichtige Rolle. Wir erkl\u00e4ren, was Causal AI, Datenqualit\u00e4t und ML miteinander zu tun haben.\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/#primaryimage\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/04\\\/iStock-1148438339.jpg\",\"contentUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/04\\\/iStock-1148438339.jpg\",\"width\":1920,\"height\":1047,\"caption\":\"Data volume analysis and computer science industry.3d illustration\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/datenqualitaet-machine-learning\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Startseite\",\"item\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Datenqualit\u00e4t und Kausalit\u00e4t bei auf Machine Learning basierender Software\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#website\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/\",\"name\":\"Fraunhofer IESE\",\"description\":\"Blog des Fraunhofer-Institut f\u00fcr Experimentelles Software Engineering\",\"publisher\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"de\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#organization\",\"name\":\"Fraunhofer IESE\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2016\\\/08\\\/fhg_iese_logo.png\",\"contentUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2016\\\/08\\\/fhg_iese_logo.png\",\"width\":183,\"height\":50,\"caption\":\"Fraunhofer IESE\"},\"image\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/FraunhoferIESE\\\/\",\"https:\\\/\\\/x.com\\\/FraunhoferIESE\",\"https:\\\/\\\/www.linkedin.com\\\/company\\\/fraunhoferiese\\\/\",\"https:\\\/\\\/www.youtube.com\\\/c\\\/FraunhoferIESE\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/person\\\/96d3d2ce62a13a8ee470ea948601ff28\",\"name\":\"Dr. Julien Siebert\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2020\\\/10\\\/siebert_julien_8513_blog-96x96.jpg299e210bdf5631c16552ac66c10e3e56\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2020\\\/10\\\/siebert_julien_8513_blog-96x96.jpg\",\"contentUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2020\\\/10\\\/siebert_julien_8513_blog-96x96.jpg\",\"caption\":\"Dr. Julien Siebert\"},\"description\":\"Julien Siebert is working as senior AI Expert in the Data Science department of Fraunhofer IESE. He studied Artificial Intelligence and Engineering Science and got his PhD in Computer Science. His professional interests include data science processes, artificial intelligence and complex systems.\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/author\\\/julien-siebert\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Datenqualit\u00e4t und Kausalit\u00e4t bei auf Machine Learning basierender Software - Blog des Fraunhofer IESE","description":"Datenqualit\u00e4t spielt beim Machine Learning eine wichtige Rolle. Wir erkl\u00e4ren, was Causal AI, Datenqualit\u00e4t und ML miteinander zu tun haben.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/","og_locale":"de_DE","og_type":"article","og_title":"Datenqualit\u00e4t und Kausalit\u00e4t bei auf Machine Learning basierender Software - Blog des Fraunhofer IESE","og_description":"Datenqualit\u00e4t spielt beim Machine Learning eine wichtige Rolle. Wir erkl\u00e4ren, was Causal AI, Datenqualit\u00e4t und ML miteinander zu tun haben.","og_url":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/","og_site_name":"Fraunhofer IESE","article_publisher":"https:\/\/www.facebook.com\/FraunhoferIESE\/","article_published_time":"2024-08-01T12:37:53+00:00","og_image":[{"width":1920,"height":1047,"url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/iStock-1148438339.jpg","type":"image\/jpeg"}],"author":"Dr. Julien Siebert","twitter_card":"summary_large_image","twitter_creator":"@FraunhoferIESE","twitter_site":"@FraunhoferIESE","twitter_misc":{"Verfasst von":"Dr. Julien Siebert","Gesch\u00e4tzte Lesezeit":"8\u00a0Minuten","Written by":"Dr. Julien Siebert"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/#article","isPartOf":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/"},"author":{"name":"Dr. Julien Siebert","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/person\/96d3d2ce62a13a8ee470ea948601ff28"},"headline":"Datenqualit\u00e4t und Kausalit\u00e4t bei auf Machine Learning basierender Software","datePublished":"2024-08-01T12:37:53+00:00","mainEntityOfPage":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/"},"wordCount":1550,"publisher":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#organization"},"image":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/#primaryimage"},"thumbnailUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/iStock-1148438339.jpg","keywords":["Data Analytics","Dependable AI \/ Verl\u00e4ssliche KI","Machine Learning"],"articleSection":["K\u00fcnstliche Intelligenz"],"inLanguage":"de"},{"@type":"WebPage","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/","url":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/","name":"Datenqualit\u00e4t und Kausalit\u00e4t bei auf Machine Learning basierender Software - Blog des Fraunhofer IESE","isPartOf":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/#primaryimage"},"image":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/#primaryimage"},"thumbnailUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/iStock-1148438339.jpg","datePublished":"2024-08-01T12:37:53+00:00","description":"Datenqualit\u00e4t spielt beim Machine Learning eine wichtige Rolle. Wir erkl\u00e4ren, was Causal AI, Datenqualit\u00e4t und ML miteinander zu tun haben.","breadcrumb":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/"]}]},{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/#primaryimage","url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/iStock-1148438339.jpg","contentUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/iStock-1148438339.jpg","width":1920,"height":1047,"caption":"Data volume analysis and computer science industry.3d illustration"},{"@type":"BreadcrumbList","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/datenqualitaet-machine-learning\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Startseite","item":"https:\/\/www.iese.fraunhofer.de\/blog\/"},{"@type":"ListItem","position":2,"name":"Datenqualit\u00e4t und Kausalit\u00e4t bei auf Machine Learning basierender Software"}]},{"@type":"WebSite","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#website","url":"https:\/\/www.iese.fraunhofer.de\/blog\/","name":"Fraunhofer IESE","description":"Blog des Fraunhofer-Institut f\u00fcr Experimentelles Software Engineering","publisher":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.iese.fraunhofer.de\/blog\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"de"},{"@type":"Organization","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#organization","name":"Fraunhofer IESE","url":"https:\/\/www.iese.fraunhofer.de\/blog\/","logo":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/logo\/image\/","url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2016\/08\/fhg_iese_logo.png","contentUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2016\/08\/fhg_iese_logo.png","width":183,"height":50,"caption":"Fraunhofer IESE"},"image":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/FraunhoferIESE\/","https:\/\/x.com\/FraunhoferIESE","https:\/\/www.linkedin.com\/company\/fraunhoferiese\/","https:\/\/www.youtube.com\/c\/FraunhoferIESE"]},{"@type":"Person","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/person\/96d3d2ce62a13a8ee470ea948601ff28","name":"Dr. Julien Siebert","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2020\/10\/siebert_julien_8513_blog-96x96.jpg299e210bdf5631c16552ac66c10e3e56","url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2020\/10\/siebert_julien_8513_blog-96x96.jpg","contentUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2020\/10\/siebert_julien_8513_blog-96x96.jpg","caption":"Dr. Julien Siebert"},"description":"Julien Siebert is working as senior AI Expert in the Data Science department of Fraunhofer IESE. He studied Artificial Intelligence and Engineering Science and got his PhD in Computer Science. His professional interests include data science processes, artificial intelligence and complex systems.","url":"https:\/\/www.iese.fraunhofer.de\/blog\/author\/julien-siebert\/"}]}},"jetpack_featured_media_url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/iStock-1148438339.jpg","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts\/12315","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/users\/66"}],"replies":[{"embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/comments?post=12315"}],"version-history":[{"count":13,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts\/12315\/revisions"}],"predecessor-version":[{"id":12608,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts\/12315\/revisions\/12608"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/media\/12330"}],"wp:attachment":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/media?parent=12315"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/categories?post=12315"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/tags?post=12315"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/coauthors?post=12315"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}