{"id":12131,"date":"2024-04-15T10:00:10","date_gmt":"2024-04-15T08:00:10","guid":{"rendered":"https:\/\/www.iese.fraunhofer.de\/blog\/?p=12131"},"modified":"2026-01-08T13:08:01","modified_gmt":"2026-01-08T12:08:01","slug":"spracherkennung-mit-llm-voice-bot","status":"publish","type":"post","link":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/","title":{"rendered":"Die Zukunft des Sprachassistenten: Datenhoheit durch Spracherkennung mit eigenem LLM Voice Bot"},"content":{"rendered":"<p class=\"lead\">In einer Welt, in der Technologie immer weiter voranschreitet, sind sprachgesteuerte Assistenten zu einem nicht mehr wegzudenkenden Teil unseres Alltags geworden. Von <a href=\"https:\/\/www.ibm.com\/de-de\/watson\" target=\"_blank\" rel=\"noopener\">IBM Watson<\/a> und <a href=\"https:\/\/app.aleph-alpha.com\/\" target=\"_blank\" rel=\"noopener\">Aleph Alpha Luminous<\/a> \u00fcber <a href=\"https:\/\/www.apple.com\/de\/siri\/\" target=\"_blank\" rel=\"noopener\">Apple Siri<\/a> und <a href=\"https:\/\/developer.amazon.com\/de-DE\/alexa\" target=\"_blank\" rel=\"noopener\">Amazon Alexa<\/a> bis hin zu <a href=\"https:\/\/assistant.google.com\/\" target=\"_blank\" rel=\"noopener\">Google Assistant<\/a> und <a href=\"https:\/\/www.microsoft.com\/en-us\/cortana\" target=\"_blank\" rel=\"noopener\">Microsoft Cortana<\/a> sind diese intelligenten Helfer durch maschinelle Spracherkennung in der Lage, unsere Fragen zu beantworten, Aufgaben zu erledigen, Texte vorzulesen und sogar mit uns zu kommunizieren. Einige Nutzer sind jedoch abgeneigt, ihre pers\u00f6nlichen Daten an die Hersteller weiterzugeben. Allerdings ist es mithilfe von neuen, leistungsf\u00e4higen Sprachmodellen m\u00f6glich, mit geringem Aufwand eigene Voice Bots von hoher Qualit\u00e4t zu erstellen, zu individualisieren und nat\u00fcrlich selbst zu betreiben. Dadurch verlassen die Daten nie den Betrieb.<\/p>\n<h2>Spracherkennung mit dem LLM Voice Bot<\/h2>\n<p>In diesem Blogbeitrag m\u00f6chten wir Ihnen den LLM Voice Bot vorstellen. LLM steht f\u00fcr \u00bbLarge Language Model\u00ab, und der Voice Bot ist ein Projekt des Fraunhofer IESE, das mehrere bestehende Open-Source-Modelle miteinander kombiniert, um ein eindrucksvolles Spracherlebnis zu erzeugen. Der Aufbau ist modular, sodass einzelne Modelle beliebig ausgetauscht werden k\u00f6nnen. Dadurch ist es m\u00f6glich, auch immer wieder neuere und bessere Modelle zu integrieren. Die folgende Architektur\u00fcbersicht gibt einen \u00dcberblick \u00fcber den Aufbau.<\/p>\n<figure id=\"attachment_12197\" aria-describedby=\"caption-attachment-12197\" style=\"width: 2560px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-12197 size-full\" src=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/architecture-1.png\" alt=\"Chatverlauf der Spracherkennung und Verarbeitung durch den LLM Voice Bot. Quelle: Eigene Darstellung\" width=\"2560\" height=\"1203\" srcset=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/architecture-1.png 2560w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/architecture-1-400x188.png 400w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/architecture-1-698x328.png 698w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/architecture-1-768x361.png 768w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/architecture-1-1536x722.png 1536w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/architecture-1-2048x963.png 2048w\" sizes=\"auto, (max-width: 2560px) 100vw, 2560px\" \/><figcaption id=\"caption-attachment-12197\" class=\"wp-caption-text\">Architektur\u00fcbersicht des LLM Voice Bots mit den REST-Schnittstellen, die f\u00fcr die Kommunikation zwischen den Modellen genutzt werden. Ein Nutzer ruft die Web-Demo im Web-Browser auf. Im Hintergrund werden dann Anfragen an die jeweiligen Modelle geschickt, die auf einem oder mehreren GPU-Servern gehostet sind. GPUs (Graphics Processing Units) sind Grafikkarten, die sich aufgrund ihrer Architektur f\u00fcr parallele Berechnungen eignen, welche eine Anwendung von KI-Modellen beg\u00fcnstigen.<\/figcaption><\/figure>\n<h3>Modelle f\u00fcr Spracherkennung<\/h3>\n<p>Im Folgenden stellen wir die Modelle, die wir momentan einsetzen, beispielhaft vor. Die Modelle lassen sich in der Regel bereits mit g\u00fcnstiger Consumer-Hardware betreiben. Um die gr\u00f6\u00dften Versionen der Sprachmodelle zu hosten oder um besonders niedrige Latenzen zu erreichen, setzen wir auch spezialisierte Hardware ein, die speziell f\u00fcr KI-Anwendungen entwickelt wurde.<\/p>\n<ol>\n<li>Spracherkennung mit <a href=\"https:\/\/arxiv.org\/abs\/2212.04356\" target=\"_blank\" rel=\"noopener\">OpenAI Whisper STT<\/a>: Der LLM Voice Bot verwendet das <a href=\"https:\/\/huggingface.co\/openai\/whisper-large-v3\" target=\"_blank\" rel=\"noopener\">Whisper STT-Modell<\/a> von OpenAI, um gesprochene Sprache in Text umzuwandeln. Dieses Modell basiert auf modernster Spracherkennungstechnologie. Es erm\u00f6glicht dem Voice Bot, Ihre gesprochenen Befehle und Fragen pr\u00e4zise zu verstehen und in Text zu \u00fcbertragen.<\/li>\n<li>Sprachverst\u00e4ndnis mit <a href=\"https:\/\/arxiv.org\/abs\/2307.09288\" target=\"_blank\" rel=\"noopener\">Meta Llama 2<\/a>: Ein weiteres entscheidendes Element des LLM Voice Bots ist das <a href=\"https:\/\/github.com\/ollama\/ollama\" target=\"_blank\" rel=\"noopener\">Llama 2-Sprachmodell<\/a>. Es wurde von Meta ver\u00f6ffentlicht. Dieses Modell wird eingesetzt, um den Texteingaben einen Sinn zu geben und die Absichten und Bedeutungen hinter den Fragen und Anfragen zu verstehen. Es erm\u00f6glicht dem Voice Bot, kontextbezogene und relevante Antworten in Form von Text zu generieren.<\/li>\n<li>Nat\u00fcrliche Sprachausgabe mit <a href=\"https:\/\/arxiv.org\/abs\/2110.07205\" target=\"_blank\" rel=\"noopener\">Microsoft SpeechT5 TTS<\/a>: Um eine menschen\u00e4hnliche Sprachausgabe zu erreichen, nutzt der LLM Voice Bot das Microsoft <a href=\"https:\/\/huggingface.co\/microsoft\/speecht5_tts\" target=\"_blank\" rel=\"noopener\">SpeechT5 TTS-Modell<\/a>. Dieses Modell erm\u00f6glicht hochwertige Sprachsynthese, wodurch der Voice Bot in nat\u00fcrlicher und angenehmer Weise antworten kann.<\/li>\n<\/ol>\n<h3>Benutzerfreundliche Weboberfl\u00e4che f\u00fcr den LLM Voice Bot<\/h3>\n<p>Um das interaktive Erlebnis mit dem LLM Voice Bot zu erm\u00f6glichen, haben wir eine benutzerfreundliche Weboberfl\u00e4che entwickelt. Diese Oberfl\u00e4che zeigt den Chatverlauf an und erm\u00f6glicht es dem Nutzer, Fehler in den Textfeldern zu korrigieren. So wird sichergestellt, dass der Voice Bot den Nutzer bestm\u00f6glich verstehen kann. Au\u00dferdem kann der Nutzer mit dem Modell chatten, ohne zu sprechen, wenn z.B. zu viele Umgebungsger\u00e4usche ein Gespr\u00e4ch verhindern. Die Antwort des Voice Bots kann der Nutzer beliebig wiederholen und in beliebiger Geschwindigkeit anh\u00f6ren.<\/p>\n<figure id=\"attachment_12176\" aria-describedby=\"caption-attachment-12176\" style=\"width: 1320px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-12176 size-full\" src=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/chat_2-1.png\" alt=\"Chatverlauf der Spracherkennung und Verarbeitung durch den LLM Voice Bot. Quelle: Eigene Darstellung\" width=\"1320\" height=\"884\" srcset=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/chat_2-1.png 1320w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/chat_2-1-400x268.png 400w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/chat_2-1-698x467.png 698w, https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/chat_2-1-768x514.png 768w\" sizes=\"auto, (max-width: 1320px) 100vw, 1320px\" \/><figcaption id=\"caption-attachment-12176\" class=\"wp-caption-text\">Beispielhafte Anwendung des LLM Voice Bots. Sobald Ihre Aufnahme der Anweisung abgeschlossen ist, wird sie an die Modelle geschickt und auf der Weboberfl\u00e4che textuell dargestellt. Danach wird die Antwort des Modells ebenfalls als Text dargestellt und vertont.<\/figcaption><\/figure>\n<h3>Vielf\u00e4ltige Anwendungsm\u00f6glichkeiten f\u00fcr Spracherkennung<\/h3>\n<p>Die Einsatzm\u00f6glichkeiten f\u00fcr Voice Bots sind vielf\u00e4ltig und flexibel. Sie k\u00f6nnen als pers\u00f6nliche Assistenten dienen, die Ihnen bei der Organisation Ihres Tages helfen, Informationen liefern und sogar einfache Aufgaben erledigen. Deshalb haben Voice Bots das Potenzial, unser t\u00e4gliches Leben zu verbessern und uns effizienter zu machen.<\/p>\n<h4>Anwendungsfall Automatische \u00dcbersetzung mit Spracherkennung<\/h4>\n<p>F\u00fcr neuere Sprachmodelle ist es eine einfache Aufgabe, Sprache sinngem\u00e4\u00df zu \u00fcbersetzen. Tats\u00e4chlich sind sogar alle drei der von uns verwendeten Modelle von sich aus in der Lage, nat\u00fcrliche Sprache zu \u00fcbersetzen. Am einfachsten ist es dabei, dem Sprachmodell direkt die Anweisung zu geben, als Dolmetscher zu agieren. Dabei muss der Voice Bot nicht einmal konfiguriert werden, um die Aufgabe zu erledigen.<\/p>\n<h2>Fazit: Sind Sprachassistenten die Zukunft?<\/h2>\n<p>Der LLM Voice Bot ist ein spannendes Beispiel f\u00fcr die Zukunft der sprachgesteuerten Assistenten. Mit fortschrittlichen Modellen f\u00fcr Spracherkennung, Sprachverst\u00e4ndnis und Sprachausgabe bietet er ein eindrucksvolles und menschen\u00e4hnliches Spracherlebnis. Die vielf\u00e4ltigen Anwendungsm\u00f6glichkeiten machen ihn zu einem wertvollen Werkzeug in unserem technologiegetriebenen Alltag, ohne die Datensouver\u00e4nit\u00e4t der Nutzer zu beeintr\u00e4chtigen. Bleiben Sie also gespannt auf weitere Entwicklungen in diesem aufregenden Bereich! Wenn Sie sich f\u00fcr das Thema interessieren oder dar\u00fcber nachdenken, Voice Bots selbst einzusetzen, treten Sie gerne mit uns in <a href=\"mailto:anfrage@iese.fraunhofer.de;janek.gross@iese.fraunhofer.de;pascal.gerber@iese.fraunhofer.de\">Kontakt<\/a>.<\/p>\n<div class=\"info-box\">\n<h4>Zum Weiterlesen:<\/h4>\n<ul>\n<li><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/large-language-models-ki-sprachmodelle\/\" target=\"_blank\" rel=\"noopener\">Was sind Large Language Models? Und was ist bei der Nutzung von KI-Sprachmodellen zu beachten?<\/a><\/li>\n<li><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/open-source-large-language-models-selbst-betreiben\/\" target=\"_blank\" rel=\"noopener\">Open Source Large Language Models selbst betreiben<\/a><\/li>\n<li><a href=\"https:\/\/www.iese.fraunhofer.de\/blog\/large-action-models-nutzen-neurosymbolische-ki\/\" target=\"_blank\" rel=\"noopener\">Large Action Models (LAMs) nutzen neurosymbolische KI \u2013 Die n\u00e4chste Stufe im Hype rund um Generative AI<\/a><\/li>\n<\/ul>\n<\/div>\n<h2>Referenzen:<\/h2>\n<ul>\n<li>Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., &amp; Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In\u00a0<em>International Conference on Machine Learning<\/em>\u00a0(pp. 28492-28518). PMLR.<\/li>\n<li>Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., &#8230; &amp; Scialom, T. (2023). Llama 2: Open foundation and fine-tuned chat models.\u00a0<em>arXiv preprint arXiv:2307.09288<\/em>.<\/li>\n<li>Ao, J., Wang, R., Zhou, L., Wang, C., Ren, S., Wu, Y., &#8230; &amp; Wei, F. (2021). Speecht5: Unified-modal encoder-decoder pre-training for spoken language processing.\u00a0<em>arXiv preprint arXiv:2110.07205<\/em>.<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>In einer Welt, in der Technologie immer weiter voranschreitet, sind sprachgesteuerte Assistenten zu einem nicht mehr wegzudenkenden Teil unseres Alltags geworden. Von IBM Watson und Aleph Alpha Luminous \u00fcber Apple Siri und Amazon Alexa bis hin zu Google Assistant und&#8230;<\/p>\n","protected":false},"author":153,"featured_media":12202,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[211,177,18],"tags":[170,324,584,587,296],"coauthors":[653,432],"class_list":["post-12131","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-digitale-transformation","category-kuenstliche-intelligenz","category-sicherheit","tag-data-science","tag-datensouveraenitaet","tag-generative-ai","tag-large-language-models-llm","tag-machine-learning"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.7 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Spracherkennung mit eigenem LLM Voice Bot f\u00fcr mehr Datenhoheit<\/title>\n<meta name=\"description\" content=\"Mit selbstgehosteten Modellen f\u00fcr Spracherkennung und Spracherzeugung einen eigenen Voice Bot erstellen f\u00fcr bessere Datensicherheit.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Spracherkennung mit eigenem LLM Voice Bot f\u00fcr mehr Datenhoheit\" \/>\n<meta property=\"og:description\" content=\"Mit selbstgehosteten Modellen f\u00fcr Spracherkennung und Spracherzeugung einen eigenen Voice Bot erstellen f\u00fcr bessere Datensicherheit.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/\" \/>\n<meta property=\"og:site_name\" content=\"Fraunhofer IESE\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/FraunhoferIESE\/\" \/>\n<meta property=\"article:published_time\" content=\"2024-04-15T08:00:10+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2026-01-08T12:08:01+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Fraunhofer-IESE-\u2013-Grafik-zu-Spracherkennung-mit-LLM-Voice-Bots.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"748\" \/>\n\t<meta property=\"og:image:height\" content=\"375\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Pascal Gerber, Janek Gro\u00df\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@FraunhoferIESE\" \/>\n<meta name=\"twitter:site\" content=\"@FraunhoferIESE\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Pascal Gerber\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"5\u00a0Minuten\" \/>\n\t<meta name=\"twitter:label3\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data3\" content=\"Pascal Gerber, Janek Gro\u00df\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/\"},\"author\":{\"name\":\"Pascal Gerber\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/person\\\/85b7b1e241bb93745104c619c92b0b1e\"},\"headline\":\"Die Zukunft des Sprachassistenten: Datenhoheit durch Spracherkennung mit eigenem LLM Voice Bot\",\"datePublished\":\"2024-04-15T08:00:10+00:00\",\"dateModified\":\"2026-01-08T12:08:01+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/\"},\"wordCount\":990,\"publisher\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/04\\\/Fraunhofer-IESE-\u2013-Grafik-zu-Spracherkennung-mit-LLM-Voice-Bots.jpg\",\"keywords\":[\"Data Science\",\"Datensouver\u00e4nit\u00e4t\",\"generative ai\",\"Large Language Models (LLM)\",\"Machine Learning\"],\"articleSection\":[\"Digitale Transformation\",\"K\u00fcnstliche Intelligenz\",\"Sicherheit\"],\"inLanguage\":\"de\"},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/\",\"name\":\"Spracherkennung mit eigenem LLM Voice Bot f\u00fcr mehr Datenhoheit\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/04\\\/Fraunhofer-IESE-\u2013-Grafik-zu-Spracherkennung-mit-LLM-Voice-Bots.jpg\",\"datePublished\":\"2024-04-15T08:00:10+00:00\",\"dateModified\":\"2026-01-08T12:08:01+00:00\",\"description\":\"Mit selbstgehosteten Modellen f\u00fcr Spracherkennung und Spracherzeugung einen eigenen Voice Bot erstellen f\u00fcr bessere Datensicherheit.\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/#primaryimage\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/04\\\/Fraunhofer-IESE-\u2013-Grafik-zu-Spracherkennung-mit-LLM-Voice-Bots.jpg\",\"contentUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/04\\\/Fraunhofer-IESE-\u2013-Grafik-zu-Spracherkennung-mit-LLM-Voice-Bots.jpg\",\"width\":748,\"height\":375,\"caption\":\"Ein Nutzer unterh\u00e4lt sich mit einem LLM Voice Bot\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/spracherkennung-mit-llm-voice-bot\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Startseite\",\"item\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Die Zukunft des Sprachassistenten: Datenhoheit durch Spracherkennung mit eigenem LLM Voice Bot\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#website\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/\",\"name\":\"Fraunhofer IESE\",\"description\":\"Blog des Fraunhofer-Institut f\u00fcr Experimentelles Software Engineering\",\"publisher\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"de\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#organization\",\"name\":\"Fraunhofer IESE\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2016\\\/08\\\/fhg_iese_logo.png\",\"contentUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2016\\\/08\\\/fhg_iese_logo.png\",\"width\":183,\"height\":50,\"caption\":\"Fraunhofer IESE\"},\"image\":{\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/FraunhoferIESE\\\/\",\"https:\\\/\\\/x.com\\\/FraunhoferIESE\",\"https:\\\/\\\/www.linkedin.com\\\/company\\\/fraunhoferiese\\\/\",\"https:\\\/\\\/www.youtube.com\\\/c\\\/FraunhoferIESE\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/#\\\/schema\\\/person\\\/85b7b1e241bb93745104c619c92b0b1e\",\"name\":\"Pascal Gerber\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/04\\\/Gerber_Pascal-96x96.jpg6b1be2b37144d766b592948c366193a9\",\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/04\\\/Gerber_Pascal-96x96.jpg\",\"contentUrl\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/wp-content\\\/uploads\\\/2024\\\/04\\\/Gerber_Pascal-96x96.jpg\",\"caption\":\"Pascal Gerber\"},\"description\":\"Pascal Gerber ist Data Scientist am Fraunhofer IESE und arbeitet dort seit 2021. In Forschungs- und Industrieprojekten besch\u00e4ftigt er sich mit generativer KI, insbesondere mit Large Language Models. Sein Schwerpunkt liegt auf dem zuverl\u00e4ssigen Einsatz dieser Technologien zur Unterst\u00fctzung und Effizienzsteigerung von Gesch\u00e4fts- und Entwicklungsprozessen. W\u00e4hrend seines Informatikstudiums an der TU Kaiserslautern befasste er sich unter anderem mit Methoden des Machine Learning, darunter Reinforcement Learning. Zudem verf\u00fcgt er \u00fcber Erfahrung in der Unsicherheitsanalyse und Absicherung von KI-Systemen.\",\"sameAs\":[\"https:\\\/\\\/de.linkedin.com\\\/in\\\/pascal--gerber\"],\"url\":\"https:\\\/\\\/www.iese.fraunhofer.de\\\/blog\\\/author\\\/pascal-gerber\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Spracherkennung mit eigenem LLM Voice Bot f\u00fcr mehr Datenhoheit","description":"Mit selbstgehosteten Modellen f\u00fcr Spracherkennung und Spracherzeugung einen eigenen Voice Bot erstellen f\u00fcr bessere Datensicherheit.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/","og_locale":"de_DE","og_type":"article","og_title":"Spracherkennung mit eigenem LLM Voice Bot f\u00fcr mehr Datenhoheit","og_description":"Mit selbstgehosteten Modellen f\u00fcr Spracherkennung und Spracherzeugung einen eigenen Voice Bot erstellen f\u00fcr bessere Datensicherheit.","og_url":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/","og_site_name":"Fraunhofer IESE","article_publisher":"https:\/\/www.facebook.com\/FraunhoferIESE\/","article_published_time":"2024-04-15T08:00:10+00:00","article_modified_time":"2026-01-08T12:08:01+00:00","og_image":[{"width":748,"height":375,"url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Fraunhofer-IESE-\u2013-Grafik-zu-Spracherkennung-mit-LLM-Voice-Bots.jpg","type":"image\/jpeg"}],"author":"Pascal Gerber, Janek Gro\u00df","twitter_card":"summary_large_image","twitter_creator":"@FraunhoferIESE","twitter_site":"@FraunhoferIESE","twitter_misc":{"Verfasst von":"Pascal Gerber","Gesch\u00e4tzte Lesezeit":"5\u00a0Minuten","Written by":"Pascal Gerber, Janek Gro\u00df"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/#article","isPartOf":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/"},"author":{"name":"Pascal Gerber","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/person\/85b7b1e241bb93745104c619c92b0b1e"},"headline":"Die Zukunft des Sprachassistenten: Datenhoheit durch Spracherkennung mit eigenem LLM Voice Bot","datePublished":"2024-04-15T08:00:10+00:00","dateModified":"2026-01-08T12:08:01+00:00","mainEntityOfPage":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/"},"wordCount":990,"publisher":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#organization"},"image":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/#primaryimage"},"thumbnailUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Fraunhofer-IESE-\u2013-Grafik-zu-Spracherkennung-mit-LLM-Voice-Bots.jpg","keywords":["Data Science","Datensouver\u00e4nit\u00e4t","generative ai","Large Language Models (LLM)","Machine Learning"],"articleSection":["Digitale Transformation","K\u00fcnstliche Intelligenz","Sicherheit"],"inLanguage":"de"},{"@type":"WebPage","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/","url":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/","name":"Spracherkennung mit eigenem LLM Voice Bot f\u00fcr mehr Datenhoheit","isPartOf":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/#primaryimage"},"image":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/#primaryimage"},"thumbnailUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Fraunhofer-IESE-\u2013-Grafik-zu-Spracherkennung-mit-LLM-Voice-Bots.jpg","datePublished":"2024-04-15T08:00:10+00:00","dateModified":"2026-01-08T12:08:01+00:00","description":"Mit selbstgehosteten Modellen f\u00fcr Spracherkennung und Spracherzeugung einen eigenen Voice Bot erstellen f\u00fcr bessere Datensicherheit.","breadcrumb":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/"]}]},{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/#primaryimage","url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Fraunhofer-IESE-\u2013-Grafik-zu-Spracherkennung-mit-LLM-Voice-Bots.jpg","contentUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Fraunhofer-IESE-\u2013-Grafik-zu-Spracherkennung-mit-LLM-Voice-Bots.jpg","width":748,"height":375,"caption":"Ein Nutzer unterh\u00e4lt sich mit einem LLM Voice Bot"},{"@type":"BreadcrumbList","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/spracherkennung-mit-llm-voice-bot\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Startseite","item":"https:\/\/www.iese.fraunhofer.de\/blog\/"},{"@type":"ListItem","position":2,"name":"Die Zukunft des Sprachassistenten: Datenhoheit durch Spracherkennung mit eigenem LLM Voice Bot"}]},{"@type":"WebSite","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#website","url":"https:\/\/www.iese.fraunhofer.de\/blog\/","name":"Fraunhofer IESE","description":"Blog des Fraunhofer-Institut f\u00fcr Experimentelles Software Engineering","publisher":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.iese.fraunhofer.de\/blog\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"de"},{"@type":"Organization","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#organization","name":"Fraunhofer IESE","url":"https:\/\/www.iese.fraunhofer.de\/blog\/","logo":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/logo\/image\/","url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2016\/08\/fhg_iese_logo.png","contentUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2016\/08\/fhg_iese_logo.png","width":183,"height":50,"caption":"Fraunhofer IESE"},"image":{"@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/FraunhoferIESE\/","https:\/\/x.com\/FraunhoferIESE","https:\/\/www.linkedin.com\/company\/fraunhoferiese\/","https:\/\/www.youtube.com\/c\/FraunhoferIESE"]},{"@type":"Person","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/#\/schema\/person\/85b7b1e241bb93745104c619c92b0b1e","name":"Pascal Gerber","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Gerber_Pascal-96x96.jpg6b1be2b37144d766b592948c366193a9","url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Gerber_Pascal-96x96.jpg","contentUrl":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Gerber_Pascal-96x96.jpg","caption":"Pascal Gerber"},"description":"Pascal Gerber ist Data Scientist am Fraunhofer IESE und arbeitet dort seit 2021. In Forschungs- und Industrieprojekten besch\u00e4ftigt er sich mit generativer KI, insbesondere mit Large Language Models. Sein Schwerpunkt liegt auf dem zuverl\u00e4ssigen Einsatz dieser Technologien zur Unterst\u00fctzung und Effizienzsteigerung von Gesch\u00e4fts- und Entwicklungsprozessen. W\u00e4hrend seines Informatikstudiums an der TU Kaiserslautern befasste er sich unter anderem mit Methoden des Machine Learning, darunter Reinforcement Learning. Zudem verf\u00fcgt er \u00fcber Erfahrung in der Unsicherheitsanalyse und Absicherung von KI-Systemen.","sameAs":["https:\/\/de.linkedin.com\/in\/pascal--gerber"],"url":"https:\/\/www.iese.fraunhofer.de\/blog\/author\/pascal-gerber\/"}]}},"jetpack_featured_media_url":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-content\/uploads\/2024\/04\/Fraunhofer-IESE-\u2013-Grafik-zu-Spracherkennung-mit-LLM-Voice-Bots.jpg","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts\/12131","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/users\/153"}],"replies":[{"embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/comments?post=12131"}],"version-history":[{"count":55,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts\/12131\/revisions"}],"predecessor-version":[{"id":12218,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/posts\/12131\/revisions\/12218"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/media\/12202"}],"wp:attachment":[{"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/media?parent=12131"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/categories?post=12131"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/tags?post=12131"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/www.iese.fraunhofer.de\/blog\/wp-json\/wp\/v2\/coauthors?post=12131"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}