{"id":11884,"date":"2024-05-13T12:23:57","date_gmt":"2024-05-13T10:23:57","guid":{"rendered":"https:\/\/www.iese.fraunhofer.de\/blog\/?p=11884"},"modified":"2026-01-22T14:20:56","modified_gmt":"2026-01-22T13:20:56","slug":"retrieval-augmented-generation-rag","status":"publish","type":"post","link":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/","title":{"rendered":"Retrieval Augmented Generation (RAG): Chatten mit den eigenen Daten"},"content":{"rendered":"<p class=\"lead\">Retrieval Augmented Generation (RAG) ist ein KI-Verfahren, das ein LLM mit einer guten Suche, z.B. in einer Dokumentensammlung, in einer Datenbank oder in einem Knowledge Graph erg\u00e4nzt, um Antworten zu generieren. Hierdurch l\u00e4sst sich die Verl\u00e4sslichkeit (<a href=\"https:\/\/www.iese.fraunhofer.de\/de\/leistungen\/dependable-ai.html\">Dependable AI<\/a>) des Generierens deutlich steigern und gleichzeitig wird es m\u00f6glich, das Potenzial von Large Language Models f\u00fcr eigene (interne) Dokumente und Daten zu nutzen \u2013 ganz ohne Fine-Tuning. Oft wird in diesem Zusammenhang auch von RAG AI gesprochen.<\/p>\n<p><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/large-language-models-ki-sprachmodelle\/\">Large Language Models (LLM)<\/a> k\u00f6nnen viele Fragen erstaunlich gut beantworten \u2013 zumindest auf den ersten Blick. Dies ist m\u00f6glich, da beim Training der Modelle auch Wissen aus den Trainingsdaten in den Parametern der LLM gespeichert wird. Allerdings sind LLM prim\u00e4r Textgeneratoren und bringen keinen Mechanismus mit, um dieses \u00bbnebenbei\u00ab angeeignete Wissen gezielt abzurufen.<\/p>\n<p>Bei aktuellen und hinreichend gro\u00dfen Large Language Models funktioniert das Beantworten von Wissensfragen zu allgemein bekannten Themen auch ohne weitere Hinzunahme zus\u00e4tzlicher Quellen meist recht gut. Aber auch nicht immer. Manchmal schleichen sich Fehler ein, es werden wichtige Punkte vergessen oder das LLM erfindet Fakten \u2013 man spricht hierbei auch von <a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/halluzinationen-generative-ki-llm\/\" target=\"_blank\" rel=\"noopener\">Halluzinationen<\/a> (siehe <a href=\"https:\/\/dl.acm.org\/doi\/10.1145\/3571730\">Ji et al. (2023): Survey of Hallucination in Natural Language Generation<\/a>). Eine eindrucksvolle Darstellung davon, wie das Vortraining mit den Problemen zusammenh\u00e4ngt, findet sich bei <a href=\"https:\/\/arxiv.org\/abs\/2309.13638\">McCoy et al. (2023): Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve<\/a>.<\/p>\n<p>In der Literatur finden sich viele Techniken zum Identifizieren von Halluzinationen, z. B. <a href=\"https:\/\/arxiv.org\/abs\/2303.08896\">SelfCheckGPT<\/a>, aber auch zu deren Vermeidung. Eine verbreitete und hilfreiche Methode ist <a href=\"https:\/\/arxiv.org\/abs\/2005.11401\">Retrieval Augmented Generation (RAG)<\/a> (siehe auch <a href=\"https:\/\/arxiv.org\/abs\/2104.07567\">Shuster et al (2021): Retrieval Augmentation Reduces Hallucination in Conversation<\/a>). In einem ganz aktuellen Paper untersuchen <a href=\"https:\/\/arxiv.org\/abs\/2404.10198\">Wu et al. (2024)<\/a> die Frage, in welchem Ma\u00dfe RAG wirklich hilft, Halluzinationen eines LLM zu verhindern.<\/p>\n<h2>Was ist RAG AI (Retrieval Augmented Generation)?<\/h2>\n<p>Auf Deutsch bedeutet Retrieval Augmented Generation (RAG): <strong>Generieren [z.B. von Text] erg\u00e4nzt durch Abrufen [von Informationen]<\/strong>. Oft wird diese KI-Technik auch als RAG AI bezeichnet. Konkret bedeutet dies, dass einem LLM mittels einer guten Suche Wissensquellen zur Seite gestellt werden. <strong>Hierdurch muss das Wissen, das zur Beantwortung eines Prompts erforderlich ist, nicht mehr aus dem LLM kommen, sondern es wird den angebundenen Quellen entnommen<\/strong>. Die Aufgabe des Large Language Models besteht dann nur noch darin, die Suchergebnisse im Sinne der urspr\u00fcnglichen Anfrage (des Prompts) zu verwerten, z.B. zusammenzufassen. Ein modernes LLM kann mithilfe eines dem Prompt hinzugef\u00fcgten Textes sehr zuverl\u00e4ssig Fragen beantworten bzw. andere Aufgabenstellungen l\u00f6sen \u2013 viel zuverl\u00e4ssiger, als wenn es auf implizit angeeignetes Wissen zur\u00fcckgreifen muss.<\/p>\n<figure id=\"attachment_12359\" aria-describedby=\"caption-attachment-12359\" style=\"width: 600px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-12359 size-full\" src=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/05\/retrieval_augmented_generation_RAG_600px.png\" alt=\"Infografik Retrieval Augmented Generation: Wie funktioniert RAG AI? Es reichert KI-Systeme mit Kontextwissen (Datenbanken etc.) an und reduziert so Halluzinationen.\" width=\"600\" height=\"483\" srcset=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/05\/retrieval_augmented_generation_RAG_600px.png 600w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/05\/retrieval_augmented_generation_RAG_600px-400x322.png 400w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><figcaption id=\"caption-attachment-12359\" class=\"wp-caption-text\">Infografik: Wie funktioniert Retrieval Augmented Generation (RAG AI) im Detail?<\/figcaption><\/figure>\n<div class=\"info-box\"><strong>Wie funktioniert Retrieval Augmented Generation?<\/strong> Bei Retrieval Augmented Generation (RAG AI) erweitert man den Prompt f\u00fcr das Large Language Model um Suchergebnisse aus einer Dokumentensammlung, einer Datenbank, einem Wissensgraph (Knowledge Graph) oder einer anderen Suche (z.B. Internetsuche). Das Wissen f\u00fcr die Antwort kommt also aus angebundenen Quellen und nicht aus dem LLM.<\/div>\n<div class=\"mceTemp\"><\/div>\n<h2>RAG kann internes Wissen Ihres Unternehmens besser zug\u00e4nglich machen: \u00bbMit eigenen Dokumenten chatten\u00ab<\/h2>\n<p>Retrieval Augmented Generation (RAG) erg\u00e4nzt Large Language Models nicht nur mit dem <strong>Zweck, Halluzinationen zu vermeiden und zuverl\u00e4ssiger zu antworten<\/strong>. RAG eignet sich auch hervorragend daf\u00fcr, <strong>Fragen zu internen Dokumenten und\/oder anderen Daten <\/strong>mithilfe eines Large Language Models zu beantworten. Jedes moderne und hinreichend gro\u00dfe Large Language Model kann mithilfe von RAG ohne Fine-Tuning dazu benutzt werden, <strong>Antworten auf Grundlage von internen Dokumenten bzw. Datenbanken <\/strong>zu generieren. Stark vereinfacht gesagt: Durch RAG wird es m\u00f6glich, mit eigenen Dokumenten bzw. Daten zu chatten.<\/p>\n<h3>Welche Quellen lassen sich f\u00fcr RAG anbinden?<\/h3>\n<p>Oft wird Retrieval Augmented Generation mithilfe einer semantischen Suche f\u00fcr Dokumentensammlungen realisiert. Diese stellt semantisch passende Passagen aus Textsammlungen bereit.<\/p>\n<div class=\"info-box\"><strong>Wie funktioniert eine semantische Suche?<\/strong> Textpassagen werden mithilfe sogenannter Embedding-Modelle (z. B. <a href=\"https:\/\/www.sbert.net\/\">Sentence-Transformers<\/a>) als Vektoren repr\u00e4sentiert. Auch die Suchphrase wird mit dem gleichen Modell als Vektor dargestellt. Da Embedding-Modelle Vektoren erzeugen, die die Semantik eines Ausdrucks beinhalten, k\u00f6nnen \u00fcber eine \u00c4hnlichkeitssuche die Embedding-Vektoren gefunden werden, die dem Suchausdruck am \u00e4hnlichsten sind &#8212; und damit lassen sich auch die \u00e4hnlichsten Textabschnitte abrufen. Technisch wird dies meist \u00fcber eine <a href=\"https:\/\/de.wikipedia.org\/wiki\/Vektordatenbank\">Vektordatenbank<\/a> realisiert (bekannte Open-Source-Vektordatenbanken f\u00fcr den Produktivbetrieb sind <a href=\"https:\/\/milvus.io\/\">Milvus<\/a>, <a href=\"https:\/\/github.com\/weaviate\/weaviate\">Weaviate<\/a> und <a href=\"https:\/\/github.com\/qdrant\/qdrant\">Qdrant<\/a>).<\/div>\n<p>Manchmal ist anstelle einer Vektorsuche auch eine fuzzy (unscharfe) String-Suche sinnvoll, die z. B. mit <a href=\"https:\/\/www.elastic.co\/de\/elasticsearch\">Elasticsearch<\/a>, <a href=\"https:\/\/opensearch.org\/\">OpenSearch<\/a> oder <a href=\"https:\/\/solr.apache.org\/\">Apache Solr<\/a> f\u00fcr den Produktivbetrieb implementiert werden kann. Wir haben gute Erfahrungen mit einer hybriden Suche gemacht: einer Kombination aus semantischer Vektorsuche und fuzzy Keyword-Suche mit OpenSearch.<\/p>\n<p>Letztlich kann aber jede Art von Datenbank und Suche (z. B. auch eine Internetsuche) f\u00fcr RAG genutzt werden, solange die <strong>Suchergebnisse als Textabschnitte<\/strong> dargestellt werden k\u00f6nnen; Beispiele hierf\u00fcr sind <a href=\"https:\/\/neo4j.com\/blog\/what-is-knowledge-graph\/\">Wissensgraphen <\/a>(<a href=\"https:\/\/en.wikipedia.org\/wiki\/Knowledge_graph\">Knowledge Graph<\/a>) und relationale Datenbanken (SQL-Datenbanken). Um diese Datenquellen nutzen zu k\u00f6nnen, erzeugt das Large Language Modell (es kann auch ein zweites, spezialisiertes LLM zum Einsatz kommen) eine Datenbankabfrage in der erforderlichen Abfragesprache, z. B. <a href=\"https:\/\/de.wikipedia.org\/wiki\/SQL\">SQL<\/a>, <a href=\"https:\/\/de.wikipedia.org\/wiki\/Cypher_(Abfragesprache)\">Cypher<\/a> oder <a href=\"https:\/\/de.wikipedia.org\/wiki\/SPARQL\">SPARQL<\/a>. Der Einsatz solcher Datenquellen kann sinnvoll sein, wenn diese sowieso schon in einem Unternehmen existieren und mithilfe des LLM zug\u00e4nglich gemacht werden sollen, oder wenn Fragen beantwortet werden sollen, die nicht auf Grundlage der Top-Treffer in einer Dokumentendatenbank beantwortet werden k\u00f6nnen, z. B. \u00bb<em>Wie viele<\/em> Projekte hat das Fraunhofer IESE im Jahr 2022 erfolgreich abgeschlossen?\u00ab, oder f\u00fcr Fragen, f\u00fcr die eine reine <em>Dokumenten<\/em>datenbank mehrfach durchsucht werden m\u00fcsste, sogenannte Multi-Hop-Fragen.<\/p>\n<h3>Wie lassen sich Datenbanken f\u00fcr RAG anbinden?<\/h3>\n<p>Zur Herstellung der Verbindung von LLM und Datenbank gibt es umfangreiche Open-Source-Bibliotheken, z.B. <a href=\"https:\/\/python.langchain.com\/docs\/get_started\/introduction\">LangChain<\/a> und <a href=\"https:\/\/www.llamaindex.ai\/\">LlamaIndex<\/a>. <strong>Man kann die Anbindung aber auch mit wenig Aufwand selbst programmieren, was die M\u00f6glichkeit bietet, auf Besonderheiten des Use Cases einzugehen.<\/strong> Zum Beispiel kann man so eine automatische Synonymersetzung integrieren, um die Suche zu verbessern. Unser <a href=\"https:\/\/www.iese.fraunhofer.de\/de\/leistungen\/data-analytics.html\">Team Data Science<\/a> kann hierbei unterst\u00fctzen.<\/p>\n<h2>Welches LLM ist f\u00fcr Retrieval Augmented Generation geeignet?<\/h2>\n<p>Grunds\u00e4tzlich l\u00e4sst sich Retrieval Augmented Generation mit allen Large Language Models kombinieren, die programmatisch, z. B. \u00fcber eine API, zug\u00e4nglich sind. Es ist also m\u00f6glich, sowohl kommerzielle LLM als auch selbstbetriebene Open-Source Large Language Models (on-premises) zu nutzen. Auch hierbei helfen Bibliotheken wie LangChain oder LlamaIndex. Sowohl instruction-tuned als auch chat-tuned LLM eignen sich unserer Erfahrung nach f\u00fcr RAG.<\/p>\n<h3>Sensible Daten mit einem Open-Source LLM verarbeiten (on-premises)<\/h3>\n<p><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/open-source-large-language-models-selbst-betreiben\/\">Open-Source Large Language Models bieten viele Vorteile gegen\u00fcber kommerziellen Angeboten<\/a>. Im Kontext von Retrieval Augmented Generation ist aber sicherlich ein besonders wichtiger Vorteil, dass diese on-premises selbst betrieben werden k\u00f6nnen, denn RAG soll ja h\u00e4ufig mit internen sensiblen Daten genutzt werden (bei jeder Anfrage m\u00fcssen dem LLM also interne sensible Daten \u00fcbermittelt werden). <strong>Mit einem selbstbetriebenen (on-premises) Open-Source Large Language Model ist sichergestellt, dass w\u00e4hrend dessen Benutzung zu keinem Zeitpunkt sensible Daten das eigene Netzwerk verlassen m\u00fcssen<\/strong>. Die gesamte Datenverarbeitung kann auf der eigenen Infrastruktur stattfinden.<\/p>\n<p>Einige weitere Vorteile:<\/p>\n<ul>\n<li>Spezialisierte LLM k\u00f6nnen zum Einsatz kommen, z. B. f\u00fcr SQL<\/li>\n<li>Auf Deutsch spezialisierte LLM k\u00f6nnen zum Einsatz kommen, z. B <a href=\"https:\/\/huggingface.co\/LeoLM\/leo-hessianai-70b-chat\">LeoLM 70B Chat<\/a>, <a href=\"https:\/\/huggingface.co\/VAGOsolutions\/SauerkrautLM-Mixtral-8x7B\">SauerkrautLM &#8211; Mixtral &#8211; 8x7B<\/a>, oder <a href=\"https:\/\/huggingface.co\/DiscoResearch\/DiscoLM-mixtral-8x7b-v2\">DiscoLM Mixtral 8x7b<\/a><\/li>\n<\/ul>\n<h3>Was ist bei der Auswahl eines LLM zu beachten?<\/h3>\n<p>Unabh\u00e4ngig davon, ob man sich f\u00fcr ein kommerzielles oder ein Open-Source LLM entscheidet: Im Zusammenhang mit RAG ist einiges zu beachten. Besonders wichtig ist, dass das LLM einen langen Prompt verarbeiten kann. Dar\u00fcber hinaus ist f\u00fcr manche Schritte im RAG-Algorithmus ein besonders gutes Instruction-Tuning notwendig: Soll beispielsweise eine Suchphrase aus dem Prompt generiert werden, darf das Modell einerseits nat\u00fcrlich nicht halluzinieren, vor allem aber darf es nicht noch Erkl\u00e4rungen, Notizen oder gar eine Entschuldigung hinzuf\u00fcgen. Beim Beantworten des urspr\u00fcnglichen Prompts hingegen darf das Modell ruhig etwas redseliger sein.<\/p>\n<p><strong>Wir haben gute Erfahrungen mit dem Einsatz zweier LLMs innerhalb einer RAG Pipeline gemacht<\/strong>: ein gro\u00dfes, eloquentes LLM, das einen gro\u00dfen Prompt verarbeiten kann (z. B. <a href=\"https:\/\/huggingface.co\/mistralai\/Mixtral-8x7B-Instruct-v0.1\">Mixtral &#8211; 8x7B &#8211; Instruct<\/a>), und ein kleines, schnelles LLM, das sehr pr\u00e4zise Anweisungen befolgen und sehr pr\u00e4zise antworten kann (z. B. <a href=\"https:\/\/huggingface.co\/NousResearch\/Nous-Hermes-2-SOLAR-10.7B\">Nous Hermes 2 &#8211; SOLAR 10.7B<\/a>). Nicht zuletzt ist nat\u00fcrlich auch wichtig, f\u00fcr welche Sprachen ein Modell vorbereitet wurde. W\u00e4hrend beispielsweise das Erfassen deutschsprachiger Texte f\u00fcr die meisten modernen LLM kein Problem mehr ist, merkt man zumindest kleineren Modellen beim Generieren von Texten schon deutlich an, ob ein Fine-Tuning f\u00fcr Deutsch stattgefunden hat.<\/p>\n<div class=\"info-box\">\n<p>Weitere Blog-Beitr\u00e4ge rund um generative KI und gro\u00dfe Sprachmodelle:<\/p>\n<ul>\n<li><strong><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/large-language-models-ki-sprachmodelle\/\" target=\"_blank\" rel=\"noopener\">Was sind Large Language Models<\/a><\/strong>? Und was ist bei der Nutzung von KI-Sprachmodellen zu beachten?<\/li>\n<li><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/open-source-large-language-models-selbst-betreiben\/\" target=\"_blank\" rel=\"noopener\"><strong>Open Source Large Language Models und deren Betrieb:<\/strong><\/a> Tipps f\u00fcr den Einstieg<\/li>\n<li><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/was-ist-prompt-engineering\/\" target=\"_blank\" rel=\"noopener\"><strong>Prompt Engineering<\/strong><\/a>: wie kommuniziert man am besten mit gro\u00dfen Sprachmodellen?<\/li>\n<li><strong><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/halluzinationen-generative-ki-llm\/\" target=\"_blank\" rel=\"noopener\">Halluzinationen<\/a> <\/strong>von generativer KI und gro\u00dfen Sprachmodellen (LLMs)<\/li>\n<li><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/large-action-models-nutzen-neurosymbolische-ki\/\" target=\"_blank\" rel=\"noopener\"><strong>Large Action Models<\/strong><\/a> (LAMs) nutzen neurosymbolische KI \u2013 Die n\u00e4chste Stufe im Hype rund um Generative AI<\/li>\n<li><strong><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/ki-in-der-softwareentwicklung-neue-erkenntnisse-aus-forschung-und-praxis\/\" target=\"_blank\" rel=\"noopener\">KI in der Softwareentwicklung<\/a>:<\/strong> Zwischen Produktivit\u00e4tsschub und Vertrauenskrise \u2013 neue Erkenntnisse aus Forschung und Praxis<\/li>\n<li><strong><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/ki-in-der-softwarearchitektur-llms-fuer-qualitaetssicherung-nutzen\/\" target=\"_blank\" rel=\"noopener\">KI in der Softwarearchitektur<\/a>:<\/strong> Wie LLMs die Qualit\u00e4tssicherung automatisieren<\/li>\n<li><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/\" target=\"_blank\" rel=\"noopener\"><strong>Die Zukunft des Sprachassistenten<\/strong><\/a>: Datenhoheit durch Spracherkennung mit eigenem LLM Voice Bot<\/li>\n<\/ul>\n<\/div>\n<h2>Ist Fine-Tuning eine Alternative zu Retrieval Augmented Generation?<\/h2>\n<p>Vor dem <a href=\"https:\/\/huggingface.co\/blog\/2023-in-llms\">Jahr 2023, das Huggingface als \u00bbyear of open LLMs\u00ab bezeichnet<\/a>, geh\u00f6rte Fine-Tuning zu den ganz typischen Aufgaben beim Einsatz von Sprachmodellen wie <a href=\"https:\/\/arxiv.org\/abs\/1810.04805\">BERT<\/a>. Kein Wunder also, dass man sich auch im Jahr 2024 noch fragt, ob Fine-Tuning nicht helfen k\u00f6nnte, das Wissen aus Dokumenten einem LLM zur Verf\u00fcgung zu stellen. <strong>Unserer Ansicht nach sollte Fine-Tuning aber nicht daf\u00fcr eingesetzt werden, einem LLM Wissen anzutrainieren<\/strong>.<\/p>\n<p>Im Zusammenhang mit RAG kann Fine-Tuning aber durchaus helfen, z.B. um<\/p>\n<ul>\n<li>einen bestimmten Antwortstil zu ber\u00fccksichtigen,<\/li>\n<li>auf bestimmte Details in den Suchergebnissen zu achten,<\/li>\n<li>mit speziellen Suchergebnisformaten besser umgehen zu k\u00f6nnen, z. B. Ergebnissen aus einer relationalen Datenbank (\u00bbSQL\u00ab) oder aus einem Knowledge Graph.<\/li>\n<\/ul>\n<p>Fine-Tuning kann also RAG durchaus erg\u00e4nzen. Mit <a href=\"https:\/\/huggingface.co\/blog\/peft\">Parameter Efficient Fine-Tuning<\/a>, z.B. <a href=\"https:\/\/arxiv.org\/abs\/2106.09685\">LoRA<\/a> oder <a href=\"https:\/\/arxiv.org\/abs\/2305.14314\">QLoRA<\/a>, ist dies im Jahr 2024 auch mit moderaten Hardwareanforderungen technisch machbar. Man sollte aber nicht vergessen, dass Fine-Tuning ein sehr aufw\u00e4ndiges Vorhaben ist. Ein Fine-Tuning durchzuf\u00fchren, das insgesamt wirklich zu einer Verbesserung der Modellqualit\u00e4t f\u00fchrt, ist nicht einfach. Unser <a href=\"https:\/\/www.iese.fraunhofer.de\/de\/leistungen\/data-analytics.html\">Team Data Science<\/a> kann Sie hierbei unterst\u00fctzen und auch Alternativen aufzeigen.<br \/>\n<strong>Wir empfehlen, zuerst die M\u00f6glichkeiten von Retrieval Augmented Generation auszureizen<\/strong> und m\u00f6glichst viel in dieser Hinsicht zu optimieren.<\/p>\n<h2>Vom Ausprobieren zur Produktion<\/h2>\n<p>Retrieval Augmented Generation auszuprobieren ist nicht schwierig. Mit LangChain oder LlamaIndex hat man schnell sein Lieblings-LLM, eine Vektordatenbank mit Embedding-Modell und einen Dokumenten-Importer miteinander verbunden. In einem Jupyter-Notebook kann man dann Anfragen an dieses RAG-System stellen. Es gibt auch schon fertige Open-Source Software f\u00fcr RAG, z. B. <a href=\"https:\/\/github.com\/imartinez\/privateGPT\">PrivateGPT<\/a> und <a href=\"https:\/\/github.com\/Mintplex-Labs\/anything-llm\">AnythingLLM<\/a>, und auch Cloud-Angebote f\u00fcr RAG stehen bereit. Auch interessant f\u00fcr den Einstieg: Im Februar 2024 hat <a href=\"https:\/\/www.nvidia.com\/de-de\/ai-on-rtx\/chat-with-rtx-generative-ai\/\">NVIDIA <\/a><a href=\"https:\/\/huggingface.co\/blog\/2023-in-llms\">\u00bb<\/a><a href=\"https:\/\/www.nvidia.com\/de-de\/ai-on-rtx\/chat-with-rtx-generative-ai\/\">Chat with RTX<\/a><a href=\"https:\/\/huggingface.co\/blog\/2023-in-llms\">\u00ab<\/a> vorgestellt, eine kostenlose RAG Demo App (<a href=\"https:\/\/www.heise.de\/news\/Nvidias-Chat-with-RTX-ist-ein-kostenloser-lokaler-Daten-Chatbot-9627934.html\">siehe auch den Newsartikel bei Heise<\/a>).<\/p>\n<p>Unserer Ansicht nach kann so etwas aber nur den Einstieg in das Thema darstellen. <strong>Um ein RAG-basiertes System richtig gut zu machen und genau auf den eigenen Use Case zuzuschneiden, ist viel Detailarbeit erforderlich.<\/strong> Und nicht zuletzt wird ja ein System angestrebt, das Server-basiert einer gro\u00dfen Anzahl von Mitarbeitenden bereitgestellt werden kann und dabei m\u00f6glichst auch on-premises betrieben werden soll. Unser <a href=\"https:\/\/www.iese.fraunhofer.de\/de\/leistungen\/data-analytics.html\">Team Data Science<\/a> hat viel Erfahrung beim individuellen Gestalten und Optimieren sowie beim Betrieb (on-premises) von Retrieval-Augmented-Generation-Systemen und kann Sie bei der Umsetzung unterst\u00fctzen.<\/p>\n<h2>Evaluieren eines Retrieval-Augmented-Generation-Systems<\/h2>\n<p><strong>Bevor man anf\u00e4ngt zu optimieren, sollte man eine Evaluation aufsetzen, um die Qualit\u00e4t des Retrieval-Augmented-Generation-Systems zu messen<\/strong>. Man kann auf der Ebene arbeiten, Prompts mit den finalen Ausgaben zu vergleichen oder auch generierte Ausgaben mit den Antworten eines Testdatensatzes; man kann aber auch zun\u00e4chst validieren, ob die Suche des RAG-Systems die richtigen Dokumente findet. Ein Open-Source Tool, das speziell zum Evaluieren von RAG-Systemen gemacht ist, ist <a href=\"https:\/\/docs.ragas.io\/en\/stable\/\">RAGAS<\/a>.<\/p>\n<h2>Ist Retrieval Augmented Generation das Richtige f\u00fcr Ihren Anwendungsfall?<\/h2>\n<p>Retrieval Augmented Generation ist nicht die einzige M\u00f6glichkeit, um interne Dokumente mithilfe von Large Language Models zug\u00e4nglich zu machen. <strong>Insbesondere wenn es darauf ankommt, dass keinesfalls Halluzinationen in der finalen Antwort auftreten d\u00fcrfen, ergibt es Sinn, \u00fcber verl\u00e4sslichere Alternativen nachzudenken.<\/strong> Unser <a href=\"https:\/\/www.iese.fraunhofer.de\/de\/leistungen\/data-analytics.html\">Team Data Science<\/a> unterst\u00fctzt Sie hierbei gerne.<\/p>\n<h3>Unterst\u00fctzung durch unser Data-Science-Team<\/h3>\n<p>Retrieval Augmented Generation ist unserer Ansicht nach eine hervorragende M\u00f6glichkeit, um die Leistungsf\u00e4higkeit von Large Language Models f\u00fcr eigene Dokumente und Datenbanken zu nutzen; speziell die Anbindung eines Knowledge Graph bietet unserer Ansicht nach sehr viel Potenzial. Unser <a href=\"https:\/\/www.iese.fraunhofer.de\/de\/leistungen\/data-analytics.html\">Team Data Science<\/a> hilft Ihnen gerne bei der Umsetzung, insbesondere bei folgenden Punkten:<\/p>\n<ul>\n<li>Use-Case-spezifische Auswahl eines (oder mehrerer) Large Language Models<\/li>\n<li>Use-Case-spezifische Anbindung existierender Datenbanken, Knowledge Graphs oder Dokumente<\/li>\n<li>Use-Case-spezifische Vorverarbeitung der Daten (Preprocessing)<\/li>\n<li>Aufsetzen eines production-ready Systems, selbstverst\u00e4ndlich auch on-premises, mithilfe von <a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/open-source-large-language-models-selbst-betreiben\/\">Open-Source Large Language Models<\/a><\/li>\n<li>Use-Case-spezifische Evaluierung des Systems<\/li>\n<li>Use-Case-spezifische Optimierung<\/li>\n<li>Falls erforderlich: Use-Case-spezifisches Fine-Tuning<\/li>\n<li>Knowledge Transfer und Schulung Ihrer Mitarbeitenden<\/li>\n<\/ul>\n<p><strong>Sie w\u00fcnschen einen pers\u00f6nlichen Beratungstermin?<br \/>\n<a href=\"mailto:thorsten.honroth@iese.fraunhofer.de;anfrage@iese.fraunhofer.de\">Schreiben Sie uns gerne eine E-Mail!<\/a><br \/>\n<\/strong>Wir k\u00f6nnen dann ganz unverbindlich \u00fcber Ihren Use Case sprechen.<\/p>\n<div class=\"info-box\">\n<p>Large Language Models Webinare<\/p>\n<h2>Wie kann ich mehr \u00fcber LLMs lernen?<\/h2>\n<p>Das <a href=\"https:\/\/www.iese.fraunhofer.de\/de\/leistungen\/data-analytics.html\">Team Data Science<\/a> bietet zum Thema LLM Webinare an, darunter sowohl kostenfreie als auch kostenpflichtige Optionen.<\/p>\n<p>&nbsp;<\/p>\n<p>Mehr zur Webinarreihe<strong><br \/>\n\u00bbZuverl\u00e4ssiger Einsatz von Large Language Models (LLMs)\u00ab<\/strong><\/p>\n<h3 class=\"fragment\"><a href=\"https:\/\/www.iese.fraunhofer.de\/de\/seminare_training\/webinar-llm.html\" target=\"_blank\" rel=\"noopener\">1: Open Source LLMs selbst betreiben<\/a><\/h3>\n<h3 id=\"Teil-2-Retrieval-Augmented-Generation-RAG\" class=\"fragment\"><a href=\"https:\/\/www.iese.fraunhofer.de\/de\/seminare_training\/weiterbildung-llm.html\" target=\"_blank\" rel=\"noopener\">2: Retrieval Augmented Generation (RAG)<\/a><\/h3>\n<h3 id=\"Teil-2-Retrieval-Augmented-Generation-RAG\" class=\"fragment\"><a href=\"https:\/\/www.iese.fraunhofer.de\/de\/seminare_training\/weiterbildung-prompting.html\" target=\"_blank\" rel=\"noopener\">3: Prompting Essentials \u2013 LLMs effektiv nutzen<\/a><\/h3>\n<p>&nbsp;<\/p>\n<p>Sie haben Interesse an einem Seminar f\u00fcr Ihr Unternehmen?<br \/>\nAuf Wunsch bieten wir individuell gestaltete Seminare (auf Deutsch und Englisch) f\u00fcr Ihr Unternehmen an, in denen die Schulungsinhalte gezielt auf Ihre Bed\u00fcrfnisse abgestimmt werden k\u00f6nnen.<\/p>\n<p>&nbsp;<\/p>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Retrieval Augmented Generation (RAG) ist ein KI-Verfahren, das ein LLM mit einer guten Suche, z.B. in einer Dokumentensammlung, in einer Datenbank oder in einem Knowledge Graph erg\u00e4nzt, um Antworten zu generieren. Hierdurch l\u00e4sst sich die Verl\u00e4sslichkeit (Dependable AI) des Generierens&#8230;<\/p>\n","protected":false},"author":141,"featured_media":12370,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[177],"tags":[170,584,587],"coauthors":[592,214,229],"class_list":["post-11884","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-kuenstliche-intelligenz","tag-data-science","tag-generative-ai","tag-large-language-models-llm"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.3 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Retrieval Augmented Generation (RAG): Chat mit eigenen Daten<\/title>\n<meta name=\"description\" content=\"RAG AI: Das KI-Verfahren Retrieval Augmented Generation (RAG) kombiniert Large Language Models (LLM) mit der Suche in Wissensquellen.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Retrieval Augmented Generation (RAG): Chat mit eigenen Daten\" \/>\n<meta property=\"og:description\" content=\"RAG AI: Das KI-Verfahren Retrieval Augmented Generation (RAG) kombiniert Large Language Models (LLM) mit der Suche in Wissensquellen.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/\" \/>\n<meta property=\"og:site_name\" content=\"Fraunhofer IESE\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/FraunhoferIESE\/\" \/>\n<meta property=\"article:published_time\" content=\"2024-05-13T10:23:57+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2026-01-22T13:20:56+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/05\/rag-retrieval-augmented-generation.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"800\" \/>\n\t<meta property=\"og:image:height\" content=\"375\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Thorsten Honroth, Dr. Julien Siebert, Patricia Kelbert\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@FraunhoferIESE\" \/>\n<meta name=\"twitter:site\" content=\"@FraunhoferIESE\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Thorsten Honroth\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"11\u00a0Minuten\" \/>\n\t<meta name=\"twitter:label3\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data3\" content=\"Thorsten Honroth, Dr. Julien Siebert, Patricia Kelbert\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/\"},\"author\":{\"name\":\"Thorsten Honroth\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/person\\\/fc39c2e0969b3c68873fb5c8b09dbe7b\"},\"headline\":\"Retrieval Augmented Generation (RAG): Chatten mit den eigenen Daten\",\"datePublished\":\"2024-05-13T10:23:57+00:00\",\"dateModified\":\"2026-01-22T13:20:56+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/\"},\"wordCount\":2278,\"publisher\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/05\\\/rag-retrieval-augmented-generation.jpg\",\"keywords\":[\"Data Science\",\"generative ai\",\"Large Language Models (LLM)\"],\"articleSection\":[\"K\u00fcnstliche Intelligenz\"],\"inLanguage\":\"de\"},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/\",\"name\":\"Retrieval Augmented Generation (RAG): Chat mit eigenen Daten\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/05\\\/rag-retrieval-augmented-generation.jpg\",\"datePublished\":\"2024-05-13T10:23:57+00:00\",\"dateModified\":\"2026-01-22T13:20:56+00:00\",\"description\":\"RAG AI: Das KI-Verfahren Retrieval Augmented Generation (RAG) kombiniert Large Language Models (LLM) mit der Suche in Wissensquellen.\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/#primaryimage\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/05\\\/rag-retrieval-augmented-generation.jpg\",\"contentUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/05\\\/rag-retrieval-augmented-generation.jpg\",\"width\":800,\"height\":375,\"caption\":\"Retrieval Augmented Generation RAG: Was ist das und wie funktioniert es?\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/retrieval-augmented-generation-rag\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Startseite\",\"item\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Retrieval Augmented Generation (RAG): Chatten mit den eigenen Daten\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#website\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/\",\"name\":\"Fraunhofer IESE\",\"description\":\"Blog des Fraunhofer-Institut f\u00fcr Experimentelles Software Engineering\",\"publisher\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"de\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#organization\",\"name\":\"Fraunhofer IESE\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2016\\\/08\\\/fhg_iese_logo.png\",\"contentUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2016\\\/08\\\/fhg_iese_logo.png\",\"width\":183,\"height\":50,\"caption\":\"Fraunhofer IESE\"},\"image\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/FraunhoferIESE\\\/\",\"https:\\\/\\\/x.com\\\/FraunhoferIESE\",\"https:\\\/\\\/www.linkedin.com\\\/company\\\/fraunhoferiese\\\/\",\"https:\\\/\\\/www.youtube.com\\\/c\\\/FraunhoferIESE\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/person\\\/fc39c2e0969b3c68873fb5c8b09dbe7b\",\"name\":\"Thorsten Honroth\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/01\\\/Honroth_Thorsten-96x96.png91d20458e0724d21406d728858b5942a\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/01\\\/Honroth_Thorsten-96x96.png\",\"contentUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/01\\\/Honroth_Thorsten-96x96.png\",\"caption\":\"Thorsten Honroth\"},\"description\":\"Thorsten Honroth arbeitet als Data Scientist in der Abteilung \u00bbData Science\u00ab am Fraunhofer IESE. Sein T\u00e4tigkeitsschwerpunkt ist Natural Language Processing (NLP), was auch Semantische Suche, Sprachmodelle und Large Language Models einschlie\u00dft. Zuvor war er unter anderem als wissenschaftlicher Mitarbeiter am Fraunhofer Institut f\u00fcr digitale Medizin (MEVIS) und als Machine Learning Engineer t\u00e4tig. Er studierte Mathematik und Physik auf Lehramt f\u00fcr Gymnasien und Gesamtschulen und hat auch das zweite Staatsexamen erlangt. --- Thorsten Honroth works as a Data Scientist in the Data Science Department at Fraunhofer IESE. His work focuses on Natural Language Processing (NLP), which also includes semantic search, language models and Large Language Models. Previously, he worked as a research scientist at the Fraunhofer Institute for Digital Medicine (MEVIS) and as a Machine Learning Engineer. He studied Mathematics and Physics to become a teacher for grammar schools and comprehensive schools (Gymnasien und Gesamtschulen) and also passed his second state examination.\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/author\\\/thorsten-honroth\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Retrieval Augmented Generation (RAG): Chat mit eigenen Daten","description":"RAG AI: Das KI-Verfahren Retrieval Augmented Generation (RAG) kombiniert Large Language Models (LLM) mit der Suche in Wissensquellen.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/","og_locale":"de_DE","og_type":"article","og_title":"Retrieval Augmented Generation (RAG): Chat mit eigenen Daten","og_description":"RAG AI: Das KI-Verfahren Retrieval Augmented Generation (RAG) kombiniert Large Language Models (LLM) mit der Suche in Wissensquellen.","og_url":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/","og_site_name":"Fraunhofer IESE","article_publisher":"https:\/\/www.facebook.com\/FraunhoferIESE\/","article_published_time":"2024-05-13T10:23:57+00:00","article_modified_time":"2026-01-22T13:20:56+00:00","og_image":[{"width":800,"height":375,"url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/05\/rag-retrieval-augmented-generation.jpg","type":"image\/jpeg"}],"author":"Thorsten Honroth, Dr. Julien Siebert, Patricia Kelbert","twitter_card":"summary_large_image","twitter_creator":"@FraunhoferIESE","twitter_site":"@FraunhoferIESE","twitter_misc":{"Verfasst von":"Thorsten Honroth","Gesch\u00e4tzte Lesezeit":"11\u00a0Minuten","Written by":"Thorsten Honroth, Dr. Julien Siebert, Patricia Kelbert"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/#article","isPartOf":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/"},"author":{"name":"Thorsten Honroth","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/person\/fc39c2e0969b3c68873fb5c8b09dbe7b"},"headline":"Retrieval Augmented Generation (RAG): Chatten mit den eigenen Daten","datePublished":"2024-05-13T10:23:57+00:00","dateModified":"2026-01-22T13:20:56+00:00","mainEntityOfPage":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/"},"wordCount":2278,"publisher":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#organization"},"image":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/#primaryimage"},"thumbnailUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/05\/rag-retrieval-augmented-generation.jpg","keywords":["Data Science","generative ai","Large Language Models (LLM)"],"articleSection":["K\u00fcnstliche Intelligenz"],"inLanguage":"de"},{"@type":"WebPage","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/","url":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/","name":"Retrieval Augmented Generation (RAG): Chat mit eigenen Daten","isPartOf":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/#primaryimage"},"image":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/#primaryimage"},"thumbnailUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/05\/rag-retrieval-augmented-generation.jpg","datePublished":"2024-05-13T10:23:57+00:00","dateModified":"2026-01-22T13:20:56+00:00","description":"RAG AI: Das KI-Verfahren Retrieval Augmented Generation (RAG) kombiniert Large Language Models (LLM) mit der Suche in Wissensquellen.","breadcrumb":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/"]}]},{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/#primaryimage","url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/05\/rag-retrieval-augmented-generation.jpg","contentUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/05\/rag-retrieval-augmented-generation.jpg","width":800,"height":375,"caption":"Retrieval Augmented Generation RAG: Was ist das und wie funktioniert es?"},{"@type":"BreadcrumbList","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/retrieval-augmented-generation-rag\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Startseite","item":"https:\/\/www.iese.fraunhofer.de\/blog\/"},{"@type":"ListItem","position":2,"name":"Retrieval Augmented Generation (RAG): Chatten mit den eigenen Daten"}]},{"@type":"WebSite","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#website","url":"https:\/\/www.iese.fraunhofer.de\/blog\/","name":"Fraunhofer IESE","description":"Blog des Fraunhofer-Institut f\u00fcr Experimentelles Software Engineering","publisher":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.iese.fraunhofer.de\/blog\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"de"},{"@type":"Organization","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#organization","name":"Fraunhofer IESE","url":"https:\/\/www.iese.fraunhofer.de\/blog\/","logo":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/logo\/image\/","url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2016\/08\/fhg_iese_logo.png","contentUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2016\/08\/fhg_iese_logo.png","width":183,"height":50,"caption":"Fraunhofer IESE"},"image":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/FraunhoferIESE\/","https:\/\/x.com\/FraunhoferIESE","https:\/\/www.linkedin.com\/company\/fraunhoferiese\/","https:\/\/www.youtube.com\/c\/FraunhoferIESE"]},{"@type":"Person","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/person\/fc39c2e0969b3c68873fb5c8b09dbe7b","name":"Thorsten Honroth","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/01\/Honroth_Thorsten-96x96.png91d20458e0724d21406d728858b5942a","url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/01\/Honroth_Thorsten-96x96.png","contentUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/01\/Honroth_Thorsten-96x96.png","caption":"Thorsten Honroth"},"description":"Thorsten Honroth arbeitet als Data Scientist in der Abteilung \u00bbData Science\u00ab am Fraunhofer IESE. Sein T\u00e4tigkeitsschwerpunkt ist Natural Language Processing (NLP), was auch Semantische Suche, Sprachmodelle und Large Language Models einschlie\u00dft. Zuvor war er unter anderem als wissenschaftlicher Mitarbeiter am Fraunhofer Institut f\u00fcr digitale Medizin (MEVIS) und als Machine Learning Engineer t\u00e4tig. Er studierte Mathematik und Physik auf Lehramt f\u00fcr Gymnasien und Gesamtschulen und hat auch das zweite Staatsexamen erlangt. --- Thorsten Honroth works as a Data Scientist in the Data Science Department at Fraunhofer IESE. His work focuses on Natural Language Processing (NLP), which also includes semantic search, language models and Large Language Models. Previously, he worked as a research scientist at the Fraunhofer Institute for Digital Medicine (MEVIS) and as a Machine Learning Engineer. He studied Mathematics and Physics to become a teacher for grammar schools and comprehensive schools (Gymnasien und Gesamtschulen) and also passed his second state examination.","url":"https:\/\/www.iese.fraunhofer.de\/blog\/author\/thorsten-honroth\/"}]}},"jetpack_featured_media_url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/05\/rag-retrieval-augmented-generation.jpg","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts\/11884","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/users\/141"}],"replies":[{"embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/comments?post=11884"}],"version-history":[{"count":50,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts\/11884\/revisions"}],"predecessor-version":[{"id":15004,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts\/11884\/revisions\/15004"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/media\/12370"}],"wp:attachment":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/media?parent=11884"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/categories?post=11884"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/tags?post=11884"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/coauthors?post=11884"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}