KI in der Softwareentwicklung: Zwischen Produktivitätsschub und Vertrauenskrise – neue Erkenntnisse aus Forschung und Praxis

Die Integration von KI ins Software Engineering ist kein Zukunftsthema mehr – sie ist Realität in vielen Unternehmen. Mit der Einführung von GenAI-Tools wie GitHub Copilot oder ChatGPT entstehen neue Spannungsfelder: Produktivitätsgewinne einerseits, Vertrauenslücken und systemische Risiken andererseits. Gleichzeitig verändert KI nicht nur die Art, wie Code entsteht, sondern auch die Anforderungen an Verifikation und Validierung (V&V). Klassische V&V-Methoden stoßen an ihre Grenzen, wenn KI-generierter Code nicht vollständig nachvollziehbar ist oder Referenzen halluziniert werden. Die Notwendigkeit, neue Kontrollsysteme zu etablieren, wird in mehreren Studien deutlich.

Im Oktober 2024 blickten wir in einem Blogartikel bereits auf die Chancen und Herausforderungen generativer KI in der Softwareentwicklung. Ein Jahr später zeigt sich: Viele Prognosen haben sich bestätigt, einige Risiken sind deutlicher geworden – und neue Fragen sind hinzugekommen. Die aktuellen Studien und Praxiserfahrungen, die wir im Folgenden zusammenfassen, geben einen realistischen Einblick in den Stand der Dinge. In diesem Beitrag reflektieren wir zentrale Erkenntnisse aus aktuellen Studien und Diskussionen, darunter den »State of AI-assisted Software Development« von Googles DevOps Research and Assessment Team (DORA), »Examining the Use and Impact of an AI Code Assistant on Developer Productivity and Experience in the Enterprise« von IBM sowie eine Reihe internationaler Forschungsarbeiten. Ziel ist es, die Wirkung von KI nicht nur lokal, sondern im Kontext von Plattformen, Prozessen und Kultur zu verstehen.

Von Effizienz zu Instabilität: Was die Forschung über KI-Produktivität sagt

Viele Studien zeigen: KI kann die Produktivität einzelner Entwickler deutlich steigern. Doch diese lokalen Produktivitätsgewinne führen nicht automatisch zu besseren Ergebnissen auf Systemebene. Die DORA-Daten deuten sogar auf eine Zunahme von Lieferinstabilität hin – trotz höherer Geschwindigkeit. Das zeigt: Ohne ein stabiles Downstream-Fundament, etwa in Architektur, Plattformqualität und Governance, verpufft der Nutzen. KI wirkt als Verstärker – aber nur, wenn die Organisation darauf vorbereitet ist.

Nutzung und Vertrauen in KI-gestützten Code

Die DORA-Studie zeigt, dass 30 % der Entwickler wenig oder kein Vertrauen in AI-generierten Code haben. Der sogenannte AI-Agent, bei dem KI autonom agiert, wird selten genutzt – 61 % der Befragten verzichten vollständig darauf. Das deckt sich mit Erkenntnissen aus »Human-AI Collaboration in Software Development: A Mixed-Methods Study of Developers’ Use of GitHub Copilot and ChatGPT«: Entwickler nutzen KI vorwiegend reflexiv, nicht delegativ – also eher im Sinne eines Sparringpartners, statt komplette Aufgaben abzugeben. Wenn Entwickler Aufgaben bearbeiten, bei denen sie Entscheidungen treffen oder Inhalte interpretieren müssen, hilft die KI nur begrenzt – das Zusammenspiel ist oft noch holprig. IDE-Integrationen und Tooling müssen so konfigurierbar sein, dass Entwickler gezielt Einfluss auf das Verhalten der KI nehmen können – das stärkt Vertrauen und verbessert die Zusammenarbeit.

Kulturelle Herausforderungen und ethische Spannungsfelder

Die Mensch-KI-Zusammenarbeit bringt neue kulturelle und ethische Fragen mit sich. Studien wie DORA weisen auf Risiken hin – etwa, dass Fachwissen verloren gehen kann (Deskilling), bestehende Rollen wegfallen (Job Displacement) oder KI gezielt für schädliche Zwecke eingesetzt wird (Malicious Use). Entwickler verlieren an Sichtbarkeit, wenn KI ihre Arbeit übernimmt – das kann zu Frustration und Identitätsverlust führen.

Zu den Lösungsansätzen zählen:

Mentoring-Formate wie das ‚AI Pair Review‘, bei dem erfahrene Entwickler die Ergebnisse der KI prüfen
Methoden zur Sichtbarmachung individueller Beiträge, um Transparenz zu schaffen
Sandbox-Strategien, in denen KI-generierter Code vor dem Einsatz abgesichert getestet wird.

Auch die ethischen Herausforderungen – etwa Verantwortung, Transparenz und Bias – müssen aktiv adressiert werden (Brief State of the Art on Human-AI in Software Engineering: Impact, Ethical Challenges, and Academic Evolution). Ein Beispiel für ein Spannungsfeld ist die Zunahme der Verantwortung von Softwareentwickelnden bei der Nutzung generativer KI und es wird die Notwendigkeit klarer Verantwortungsstrukturen hervorgehoben. Ein zentrales Problem besteht in der mangelnden Nachvollziehbarkeit von Entscheidungen, die durch KI getroffen werden. Gleichzeitig besteht die Gefahr, dass bei einem unzureichend gesteuerten oder verantwortungslosen Einsatz großer Sprachmodelle (LLMs) unbeabsichtigt Bias in Softwareprodukte eingeführt und verstärkt werden.

Plattformqualität und Value Stream Management (VSM) als Schlüssel

Mehr Code durch KI löst nicht den Engpass im System. Das zeigte ebenfalls die Analyse von DORA. Der System-Constraint bleibt bestehen, wenn Plattformen nicht als Produkt gedacht und mit klarer Governance ausgestattet sind. Wertstrommanagement (Value Stream Management) wird zu einem entscheidenden Erfolgsfaktor: Nur wenn der gesamte Ablauf – vom ersten Konzept bis zur Auslieferung – transparent ist, können Unternehmen gezielt Engpässe erkennen und Verbesserungen vornehmen. Ohne diesen Überblick über den gesamten Entwicklungsprozess können viele Aktivitäten unkoordiniert wirken und ins Leere laufen, statt auf klare Ziele hinzuarbeiten. Besonders kritisch ist, dass viele Organisationen zwar KI-Tools einführen, aber ihre Delivery-Pipelines nicht entsprechend anpassen. Fehlende Guardrails, unzureichende CI/CD-Integration und mangelnde Testabdeckung führen dazu, dass KI-generierter Output nicht zuverlässig validiert wird. Die Plattform muss daher nicht nur technische Qualität sicherstellen, sondern auch hier die Kollaboration zwischen Mensch und KI orchestrieren.

Metriken im Wandel: Von Output-Messung zu V&V-Indikatoren der Individual Effectiveness

Die Diskussion um Metriken verändert sich. Während 2024 noch »Productivity« im Fokus stand, rückt 2025 »Individual Effectiveness« in den Mittelpunkt. Studien wie »Examining the Use and Impact of an AI Code Assistant on Developer Productivity and Experience in the Enterprise« (IBM) und »Challenges and Opportunities for Generative AI in Software Engineering: A Managerial View« zeigen: Die Wirkung von KI ist individuell verschieden und kontextabhängig. Folglich sollten Metriken nicht nur die Produktivität messen, sondern handlungsleitende Indikatoren für individuelle Effektivität, Lernfortschritt, Entscheidungsqualität, Zusammenarbeit mit KI und den Einfluss auf die Produktqualität umfassen: Klassische Output-Metriken reichen nicht aus, um die Wirkung von KI zu erfassen.

Ausblick: Continuous AI und neue Rollen für den nachhaltigen KI-Einsatz

DORA beschreibt KI als »the new normal« in der Softwareentwicklung. Organisationen müssen sich auf Continuous AI einstellen – also auf eine kontinuierliche Integration und Evaluation von KI in ihre Prozesse. Neue Rollen wie der »AI Orchestrator« entstehen, die nicht nur Technologie, sondern auch Kultur und Governance gestalten. In der Studie »AI in the Software Development Lifecycle« wird eine ausgewogene Verbindung von KI-Automatisierung und menschlicher Expertise angestrebt, um Softwareentwicklung in der Ära intelligenter Systeme effizient, sicher und transparent zu gestalten. Auch im Paper »AI-Driven Innovations in Software Engineering: A Review of Current Practices and Future Directions« wird betont: Ohne Nutzerzentrierung kann KI sogar schaden.

Die Geschwindigkeit, mit der KI arbeitet, erfordert eine Anpassung der V&V-Prozesse – sowohl technisch als auch kulturell. Architektur, CI/CD-Pipelines und Review-Prozesse müssen so gestaltet sein, dass sie KI-generierten Output zuverlässig prüfen können, ohne neue Bottlenecks zu erzeugen. Auch hier ist die Rolle von »AI Pair Review« als Mentoring-Ritual besonders relevant: Senior-Entwickler übernehmen die Verantwortung für die Validierung von KI-generiertem Code, während Junior-Entwickler lernen, wie sie mit KI sicher und effektiv arbeiten.

Diese neuen Rollen begleiten die V&V nicht nur technisch, sondern auch organisatorisch: Der Mensch bleibt zentral – auch im KI-gestützten Entwicklungsprozess.

KI-Erfolg nur mit Menschen, Prozessen und Kultur

Der Erfolg von KI hängt daher nicht nur von Technologie ab, sondern auch von Menschen, Prozessen und Kultur. Der wichtigste Hebel ist die Nutzerzentrierung – ohne sie bleibt KI ein Tool ohne Wirkung.

Wie erleben Sie den Einsatz von KI in Ihrer Softwareentwicklung? Welche Herausforderungen und Chancen sehen Sie? Sprechen Sie mit uns über maßgeschneiderte KI-Governance und V&V-Strategien.

Hinweis: Transparenz ist uns wichtig: Für diesen Blogbeitrag haben wir gezielt einige aktuelle Studien und Praxisbeispiele ausgewählt. Eine vollständige, systematische Übersicht über die gesamte Forschungslage erhebt dieser Beitrag jedoch nicht.