Projekte wie F13, LLMoin und MUCGPT zeigen, dass große Sprachmodelle in vielen deutschen Kommunen angekommen sind, derzeit meist als Chatbots mit Recherche-Funktionen (RAG). KI-Agenten gehen einen Schritt weiter. Sie ermöglichen nicht nur die Generierung von Inhalten, sondern auch automatisierte Handlungsabfolgen in bestehenden Prozessen – von der Bearbeitung verwaltungsinterner Vorgänge bis hin zur Steuerung von Smart-City-Anwendungen. Unter dem Stichwort Agentic AI rücken damit neue Fragen in den Fokus: Welche Aufgaben können KI-Agenten in der öffentlichen Verwaltung sinnvoll übernehmen, wo liegen ihre Grenzen und was braucht es für einen sicheren, produktiven Einsatz?
Was sind KI-Agenten?
KI-Agenten, oft auch als Agentic AI bezeichnet, sind autonome Systeme, die eigenständig Ziele verfolgen, Aufgaben in Teilschritte zerlegen und flexibel mit ihrer Umgebung interagieren. Anders als klassische Software passen KI-Agenten ihre Strategien dynamisch an.
Die technische Grundlage sind meist große Sprachmodelle (LLMs). Diese entscheiden per Tool-Calling eigenständig, welche Werkzeuge sie wann einsetzen: Das Sprachmodell erstellt den Plan, ein Client führt ihn aus und liefert die Ergebnisse zurück [1].
Im Unterschied zu Chatbots beantworten KI-Agenten nicht nur Anfragen, sondern führen mehrstufige Aktionen in bestehenden Prozessen aus. In der öffentlichen Verwaltung gehören dazu beispielsweise das Erstellen und Priorisieren von Tickets in Fachverfahren oder die dynamische Optimierung von Verkehrsflüssen in der Smart City. Dabei agieren sie je nach Einsatzszenario mit unterschiedlichem Autonomiegrad und sind heute in der Regel noch in menschliche Freigabe- und Kontrollprozesse eingebettet.

Der Tagesspiegel Background beschreibt sie als »neueste[n] Hoffnungsträger der deutschen Verwaltungsdigitalisierung«. Ein Beispiel dafür ist die sogenannte Deutschland-App: Das BMDS plant offenbar keine einzelne Anwendung, sondern eine neue KI-gestützte Verwaltungsplattform – mit agentischen KI-Systemen als zentralem Baustein [2].
Am Fraunhofer IESE untersuchen wir KI-Agenten in der Verwaltung und in Smart Cities kritisch, analysieren ihr Potenzial, erproben ihren Einsatz und bewerten, in welchen Bereichen sie echten Mehrwert liefern. Verwaltungen sind geprägt von wiederkehrenden, datenintensiven Tätigkeiten. Dabei müssen textbasierte Informationen, Anträge, Berichte und Anforderungsdokumente in strukturierte Formate überführt, in Fachsysteme eingepflegt oder zur Weiterverarbeitung aufbereitet werden. Häufig schließt sich daran ein Freigabeprozess an, der seinerseits weitere Schritte auslöst. In diesen mehrstufigen, regelgebundenen Abläufen lassen sich agentische Systeme effizient zur Prozessautomatisierung einsetzen.
Einsatzszenarien: KI-Agenten in der Verwaltung und Smart City in drei Stufen
Dass KI-Agenten in Verwaltung und Stadtplanung bereits heute Nutzen entfalten, zeigen erste Beispiele aus der Praxis, auch wenn die Systeme noch weit davon entfernt sind, vollständig autonom zu agieren. Um die Bandbreite möglicher Einsatzszenarien zu strukturieren, haben wir die Beispiele nach der Komplexität der jeweiligen Aufgabe in drei Stufen eingeteilt.
Ein konkretes Beispiel liefert die Bundesagentur für Arbeit (BA), die derzeit KI-Agenten auf Basis großer Sprachmodelle in ihrer Verwaltungsorganisation erprobt. Ziel ist es, die manuelle Übertragung von Änderungsanforderungen und Nutzeranforderungen in Jira-Tickets zu automatisieren, eine zeitintensive und fehleranfällige Routinetätigkeit. Dafür arbeiten mehrere spezialisierte Agenten arbeitsteilig zusammen. Ein Reader-Agent extrahiert relevante Inhalte, ein Planning-Agent zerlegt die Aufgabe in Arbeitsschritte, ein Creator-Agent erstellt das Ticket inklusive Titel, Beschreibung, Priorität und Kategorie, und ein Review-Agent prüft abschließend die Ergebnisse auf Konsistenz und sortiert Dubletten aus. Erste Ergebnisse stimmen positiv, die automatisierte Ticket-Erstellung funktioniert in den meisten Fällen reibungslos, der manuelle Aufwand entfällt weitgehend. Aus Sicherheitsgründen setzt die BA ausschließlich auf lokal betriebene Modelle von Aleph Alpha, Meta, Mistral und Alibaba. Die Pilotumgebung wurde vollständig in die eigene On-Premise-Infrastruktur integriert [1].
Ein Beispiel der nächsten Komplexitätsstufe findet sich in Lagos, Nigeria, wo KI-Systeme autonom Fahrpläne des öffentlichen Nahverkehrs auf Basis von Fahrgastbewegungen und Echtzeitverkehrsdaten gestalten. Das System reagiert nicht auf vorab festgelegte Auslöser, sondern optimiert den Betrieb kontinuierlich und dynamisch. Das Beispiel zeigt, wie agentische Systeme urbane Mobilität effizienter und anpassungsfähiger gestalten können [3]. In Deutschland befinden sich vergleichbare Ansätze noch im Aufbau, etwa im Bereich KI-gestützter Verkehrssteuerung.
Das von Alibaba Cloud entwickelte Projekt City Brain steht exemplarisch für eine KI-gestützte Stadtverwaltung, die über klassische Automatisierung hinausgeht. Ursprünglich zur Verkehrsoptimierung eingesetzt, koordiniert das System inzwischen Notfalleinsätze, Ressourcenzuweisung im Gesundheitswesen sowie Aspekte der Stadtplanung. In Notfällen rekonfiguriert City Brain autonom die Verkehrssteuerung, um Rettungsfahrzeugen freie Bahn zu verschaffen, oft ohne menschliche Echtzeitüberwachung. Das System priorisiert dabei nicht nach festen Regeln, sondern auf Basis dynamischer Bewertungen mehrerer städtischer Variablen gleichzeitig [3].
Nicht jeder KI-Agent, der Verwaltungsaufgaben übernimmt, muss so komplex sein wie die Beispiele aus Nigeria und China. Für regelgebundene Abläufe der Stufe 1, wie die automatisierte Ticket-Erstellung, genügt oft ein Sprachmodell, das durch eine durchdachte Systemarchitektur und gezielte System-Prompts in klar definierte Bahnen gelenkt wird. Der jeweilige Prozessstatus bestimmt, welche Handlungsoptionen dem Agenten zu welchem Zeitpunkt offenstehen. Gleichzeitig gilt: Ein funktionierender Prototyp ist nicht dasselbe wie ein produktionsreifes System. Die eigentliche Herausforderung besteht darin, den Weg dorthin – zuverlässig, wartbar und skalierbar – zu gestalten. Wir bringen das Fachwissen mit, um diesen Weg zu gehen: klein anfangen, messen, verbessern, wiederholen.
Das Potenzial dieser Technologie untersuchen wir am Fraunhofer IESE in konkreten Projekten. Ein Beispiel ist eine KI-gestützte Plattform zur digitalen Bürgerbeteiligung. Die Plattform unterstützt Verwaltungsmitarbeitende kollaborativ bei der Erstellung von Beteiligungsformaten. Das zugrunde liegende Sprachmodell hilft dabei, Inhalte zu strukturieren, zu formulieren und anzupassen. Die fertigen Beteiligungsinhalte werden anschließend automatisch per API in die Open-Source-Plattform Consul eingetragen. Das System übernimmt damit wiederkehrende, regelgebundene Schritte, agiert aber noch klar im Rahmen menschlicher Steuerung und Freigabe. Es handelt sich weniger um einen autonomen Agenten als um einen KI-Assistenten, der Verwaltungsmitarbeitende entlastet. Mit einer erweiterten Systemarchitektur, etwa durch die Fähigkeit, Beteiligungsprozesse eigenständig zu monitoren, Rückmeldungen auszuwerten und Folgeprozesse anzustoßen, wäre ein Übergang zu einem KI-Agenten jedoch denkbar.
Herausforderungen und Sicherheit: Worauf es beim Einsatz von KI-Agenten ankommt
Relevante Risiken von KI-Agenten in der Verwaltung
Trotz der aufgezeigten Potenziale erfordert der produktive Einsatz von KI-Agenten in der Verwaltung auch neue Anforderungen an Sicherheit und Qualitätssicherung dieser Systeme.
Anders als klassische Software können Agenten auf Basis von Sprachmodellen verschiedene neue Fehlerbilder zeigen, etwa:
- Halluzinationen
- unerwünschte Inhalte
- unvorhergesehene Reaktionen bei adversarialen Eingaben (gezielt manipulierte Eingaben, die das System zu Fehlern verleiten sollen).
Welche Risiken dabei relevant sind, hängt stark vom konkreten Anwendungsfall ab.
Entscheidend sind Faktoren wie:
- der Autonomiegrad des Systems
- welche Daten es verarbeitet
- ob es Schreibrechte auf externe Systeme hat
- ob Aktionen rückgängig gemacht werden können.
Beispiel: Erstellt der Creator-Agent der BA ein Jira-Ticket auf Basis einer halluzinierten Anforderung, kann das zu falschen Entwicklungsprioritäten führen. Ein Fehler, der sich durch mehrere Prozessschritte zieht, bevor er auffällt. Genau solche Fehlerklassen müssen vorab definiert und im Testing abgedeckt sein.
Risikobasierter Testansatz für KI-Agenten
Für das Testing empfiehlt sich ein risikobasierter Ansatz.
- Kritische Fehlerklassen definieren
Zunächst sollten die kritischen Fehlerklassen für den jeweiligen Use Case definiert werden, etwa Halluzinationen, diskriminierende Sprache, Datenlecks oder die Anfälligkeit für manipulative Eingaben. - Gezielte Testsets aufbauen
Für jeden dieser Bereiche lassen sich gezielte Testsets aufbauen, die mit einer Kombination aus menschlicher Bewertung und automatisierten Methoden wie LLM-as-Judge ausgewertet werden. - Harte Grenzen für Fehlertoleranz festlegen
Dabei ist es sinnvoll, harte Grenzen zu ziehen. Für klar rechtswidrige Inhalte oder den Abfluss personenbezogener Daten gilt Nulltoleranz, während stilistische Schwächen eine höhere Fehlerquote tolerieren können. - Regressionen frühzeitig erkennen
Wichtig ist außerdem, nach jedem Modell- oder Prompt-Update ein überschaubares Re-Test-Set laufen zu lassen, um Regressionen frühzeitig zu erkennen. [4; 5].
Ausblick: KI-Agenten in der Verwaltung auf dem Weg in die Praxis
KI-Agenten in der Verwaltung stehen noch am Anfang, aber die Richtung ist klar. Die Technologie entwickelt sich rasant, erste Projekte zeigen Mehrwert, und der Druck zur Verwaltungsmodernisierung wächst. Am Fraunhofer IESE arbeiten wir an der Überführung theoretischer Konzepte in die operationale Anwendung durch die Entwicklung geeigneter Architekturen und Testmethoden sowie die enge Zusammenarbeit mit Kommunen und Behörden.
Literatur:
[1] eGovernment Computing. »KI-Agenten in der Verwaltung«, 2025.
[2] Tagesspiegel Background. »Was das BMDS mit Agentensystemen plant«, 2025.
[3] Tiwari, A. »Conceptualising the emergence of Agentic Urban AI: from automation to agency«. In: Urban Informatics 4 (13), 2025
[4] GovTech Singapore. »Agentic Risk & Capability Framework«, 2025.
[5] Google. »SAIF: Secure AI Framework for Agents«, 2024.
