Large action models (LAMs), tool learning, function calling and Agents

Zu Beginn des Jahres 2024 wurde der Begriff „Large Action Model“ (LAM) mit dem Release von Rabbit R1 in der Öffentlichkeit bekannt. Parallel dazu haben sich Large Language Models (LLM) und multimodale Modelle als nützlich erwiesen, um Roboter besser zu kontrollieren. Inzwischen können Anwendungen wie ChaGPT spezifische Werkzeuge (wie z.B. eine Websuche) aufrufen. Zuletzt wird oft von agentenbasierten Systemen (auch Multi-Agenten-Systeme genannt) gesprochen. In diesem Blogbeitrag geben unsere Experten einen Überblick und einige Tipps, wie man durch den Hype navigiert und die Realität hinter den Marketingtricks erkennt.

Was ist ein Large Action Model?

Der Begriff »Large Action Model« (LAM) lehnt sich an den Begriff »Large Language Model« (LLM) an, geht aber noch einen Schritt weiter. Sprachmodelle (wie z.B. GPT4) nehmen natürlichsprachliche Anweisungen als Eingabe und erzeugen auf der Basis von Wahrscheinlichkeiten eine textuelle Ausgabe. Sie werden zunehmend in Assistenzsystemen in Form von Chatbots eingesetzt. LAMs können dies auch, gehen aber einen Schritt weiter, indem sie Aktionen (»actions«) ableiten und ausführen. In der Wissenschaft ist der Begriff LAM allerdings nicht sehr verbreitet. Häufiger wird von „tool learning“ oder „function calling“ gesprochen.

Was sind Large Language Models? Und was ist bei der Nutzung von KI-Sprachmodellen zu beachten? Diesen Fragen geht ein anderer Blogbeitrag nach. Neben grundlegenden Informationen zu Large Language Models werden auch Kriterien und Tipps für die Auswahl eines Large Language Models genannt. Nicht zuletzt werden die Grenzen von LLMs thematisiert.

Tool learning – Function calling: Quo Vadis?

Wie kann ein Sprachmodell in ein Modell umgewandelt werden, das eine Funktion aufrufen kann? Hier kommen die Methoden des so genannten Tool Learning zum Einsatz. Zunächst muss das Modell eine Vorstellung davon haben, welche Werkzeuge zur Verfügung stehen und was damit gemacht werden kann. Dann muss das Modell einen Plan erstellen. Wenn die Möglichkeit besteht, diese Werkzeuge aufzurufen und zu überprüfen, was tatsächlich passiert ist, sollte das Modell in der Lage sein, Pläne zu ändern.

Diese Aufgaben können anhand von Beispielen an einem Modell entweder direkt in Prompt (sog. Kontextlernen) oder durch Feintuning vermittelt werden (Wang 2024, Zhang 2024).

Die Ergebnisse sind schon sichtbar. ChatGPT kann im Internet suchen. Mistral ermöglicht Funktionsaufrufe. Last but not least hat Anthropic kürzlich „AI Computer Use“ veröffentlicht, wo es um die automatische Steuerung von Computern geht.

Was sind Agenten?

In der KI-Forschung werden Agenten als autonome intelligente Entitäten bezeichnet. Im Wesentlichen können Agenten ihre Umgebung wahrnehmen, Aktionen in dieser Umgebung ausführen und überlegen, welche Aktionen notwendig sind, um ihre Ziele zu verfolgen. Es gibt verschiedene Arten von Agenten und Agentenarchitekturen. Man spricht von reaktiven Agenten, wenn Agenten festen Regeln folgen, und von kognitiven Agenten, wenn komplexere Entscheidungsalgorithmen den Agenten steuern.

Ein Multiagentensystem (MAS) ist ein System, in dem mehrere Agenten miteinander interagieren. Eine Merkhilfe sind die Vokale AEIOU (Demazeau 2003). Ein MAS besteht (mindestens) aus Agenten („A“), einer Umgebung (environment: „E“), Interaktionen („I“), Organisationsstrategien oder Organisationsartefakten (wie Gruppen, Normen) („O“), und oft Benutzern (users „U“).

Multiagentensysteme werden seit den 90er Jahren erforscht (Woolridge 2009), aber mit der Explosion von LLM werden Multiagentensysteme von der GenAI-Community wiederentdeckt. Gen-AI-basierte MAS sind Multiagentensysteme, in denen der Agent eine große Sprache oder multimodale Modelle verwenden kann. Hier spielt natürlich die Fähigkeit zum Funktionsaufruf eine große Rolle, so dass die Agenten Eingaben (wie Text, Bilder, etc.) verstehen, Pläne erstellen und Aktionen ausführen können.

Wie werden LAMs und Agenten benutzt?

Die Motivation hinter LAMs und Agenten ist die Automatisierung von (oftmals langwierigen) Aufgaben. Beispiele sind die Bedienung von Softwareanwendungen, APIs oder die Steuerung von Robotern. Als Menschen interagieren wir täglich mit (nicht immer benutzerfreundlichen) graphischen Benutzeroberflächen (GUIs). Diese Interaktion kann von einem Agenten imitiert werden, entweder weil er für solche Aufgaben vorprogrammiert ist, oder indem dem Modell einmal gezeigt wird (sogenanntes »one-shot learning«) und es dies bei späteren Anfragen selbstständig ausführt.

Bei komplexeren Prozessen können mehrere Agenten beteiligt sein. Plattformen wie MetaGPT, OpenHands, GPTPilot verwenden bereits Multiagentensysteme, um das Software Engineering zu automatisieren.

Mehr zum Thema Software Engineering und LLMs:

- Generative KI im Software Engineering: Szenarien und künftige Herausforderungen
- Open Source Large Language Models und deren Betrieb: Tipps für den Einstieg
- Retrieval Agumented Generation: Chatten mit den eigenen Daten
- Prompt Engineering: wie kommuniziert man am besten mit großen Sprachmodellen?

Wie sind solche Modelle getestet?

Wie immer bei datengetriebenen Modellen werden Benchmarks verwendet, um die Modellergebnisse zu bewerten. Diese Benchmarks bestehen einerseits aus Testdaten und andererseits aus Funktionen, die es ermöglichen, Modelle aufzurufen, Metriken auszuwerten und schließlich ein Rating zu vergeben. Am Ende werden die Ergebnisse der Modelle in einem sogenannten Leaderboard dargestellt. Einen Überblick über verschiedene Benchmarks und die dazugehörigen Leaderboards bietet z.B. Huggingface.

Verschiedene Forscher warnen davor, dass Benchmarks fehlerhaft sein können (Kapoor 2024). Aus der Praxis ist inzwischen bekannt, dass Benchmarks nur eine Richtung vorgeben, dass es aber immer wichtig ist, die eigenen Testdatenmodelle zu überprüfen.

Das neue »Superhelden-Modell« – Ist der Hype berechtigt?

In vielen Blogs oder Ankündigungen werden LAMs und Agenten als der nächste große Schritt nach den LLMs bezeichnet, teils auch als Schritt in Richtung Artificial General Intelligence (AGI). Im Rahmen von Assistenzsystemen, wie beim Bedienen von Anwendungen während der Autofahrt, liegt der Mehrwert der Idee auf der Hand. Wie der tatsächliche Mehrwert aussehen wird, hängt allerdings auch von der Qualität der ausgeführten Aktionen ab:

Generalisierbarkeit: Agenten können für eine bestimmte Aufgabe programmiert werden oder aus wenigen Beispielen lernen (durch Prompting oder spezielles Fine-Tuning). Sie sollten auch in der Lage sein, die gelernten Aktionen auszuführen, wenn die Benutzerschnittstelle anders präsentiert oder leicht verändert wird. Man hofft, dass die Agenten im Laufe der Zeit eine „konzeptuelle Blaupause“ entwickeln, die auf dem gesammelten Wissen basiert, so dass sie auf jede Anwendung verallgemeinert werden kann (dazu müssen die Agenten in der Lage sein, Wissensschnipsel zu speichern und/oder Wissensgraphen zu erzeugen).

Nachvollziehbarkeit: Es ist möglich, die Überlegungen und Handlungen der Agenten nachzuvollziehen. Im Prinzip gibt dies Anwendungsentwicklern und Forschern die Möglichkeit, Feedback zu geben, um die Agenten zu verbessern. In der Praxis wird es bei Multiagentensystemen schwierig, alle Interaktionsszenarien systematisch zu testen, und Protokolle, die alle Interaktionen verfolgen, können schnell unübersichtlich werden.

Zuverlässigkeit: Wie bei allen datengetriebenen Modellen muss damit gerechnet werden, dass die Ergebnisse (d.h. die Pläne und die ausgeführten Aktionen) nicht immer korrekt sind. Im Kontext der generativen KI wird dies als Halluzination bezeichnet. Da die Aktionen direkt vom Agenten ausgeführt werden und nicht von einem Menschen, der die Ergebnisse überprüfen könnte, gibt es wachsende Sicherheitsbedenken und Methoden zur Absicherung von Agenten.

Im Team Data Science fokussieren wir uns auf das Thema Qualität von KI-basierten Lösungen.

Kontaktieren Sie uns noch heute, um von unserer Expertise zu profitieren und Ihre Unternehmens-KI auf die nächste Stufe zu heben.

Unser Lösungsangebot als PDF zum Mitnehmen:

Referenzen

Demazeau Y., 2003, „Créativité émergente centrée utilisateur“, Techniques et Science Informatiques, vol. 22, No.4, 31-36.

Kapoor S. et al., 2024 „AI agents that matter.“ arXiv preprint arXiv:2407.01502.

Wang L. et al., 2024, „Large Action Models: From Inception to Implementation.“ arXiv preprint arXiv:2412.10047.

Wooldridge M., 2009 „An introduction to multiagent systems. John wiley & sons.

Zhang J. et al., 2024 „xlam: A family of large action models to empower ai agent systems.“ arXiv preprint arXiv:2402.15506