SEO-News

Google Whitepaper beschreibt Aufbau und Funktion von KI-Agenten

Christian Kunz

07. Januar 2025

Zuletzt aktualisiert: 28. Januar 2025

In einem neuen Whitepaper beschreibt Google den Aufbau und die Funktionsweise von KI-Agenten.

Es ist zu erwarten, dass das Jahr 2025 das Jahr der KI-Agenten wird. Dabei handelt es sich um Software, die in der Lage ist, sich zum Erledigen bestimmter Aufgaben verschiedener Tools zu bedienen. Auf diese Weise können KI-Agenten zum Beispiel online shoppen, Flüge buchen oder selbstständig Informationen zusammenstellen. Ein solcher KI-Agent ist zum Beispiel “Project Jarvis”. Dieser Google Agent soll unabhängig in der Lage sein, Aufgaben im Browser auszuführen.

In einem neuen Whitepaper, das Google veröffentlicht hat, werden sowohl der Aufbau, die Komponenten und die Funktionsweise von KI-Agenten beschrieben. Die Autoren sind Julia Wiesinger, Patrick Marlow und Vladimir Vuskovic.

Nachfolgend werden die wichtigsten Inhalte des Dokuments beschrieben.

SEO-Beratung: Wir sind Ihre Experten

Wir bringen gemeinsam Ihre Website nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Unsere Beratungsleistungen

Christian Kunz

SEO Experte

David Wulf

SEO Experte

Sven Häwel

Offpage-Experte

Komponenten eines KI-Agenten

Ein KI-Agent ist im Grunde eine Anwendung, die versucht, ein Ziel zu erreichen, indem sie die Umgebung beobachtet und mit Hilfe von Werkzeugen darauf einwirkt. Ein solcher Agent ist autonom und kann unabhängig von menschlichem Eingreifen agieren, insbesondere wenn ihm klare Ziele oder Vorgaben gegeben werden.

Die grundlegende Architektur eines KI-Agenten besteht aus drei Hauptkomponenten: dem Modell, der Orchestrierungsschicht und den Werkzeugen.

Aufbau und Komponenten eines KI-Agenten. Bild: Google

Das Sprachmodell (LM) agiert als zentrale Entscheidungseinheit innerhalb des Agenten. Es kann Anweisungen befolgen, Logik und Schlussfolgerungen anwenden und verschiedene Größen und Typen haben. Die Modelle können auch speziell auf die Bedürfnisse der Agentenarchitektur zugeschnitten und multimodal sein. Möglich ist es auch, sie durch Beispiele zu verfeinern.

Die Orchestrierungsschicht steuert den sich wiederholenden Prozess der Informationsaufnahme, der internen Verarbeitung und der daraus resultierenden Entscheidungen des Agenten. Sie umfasst die Aufrechterhaltung von Speicher, Zustand, und Planung, und verwendet Prompt-Engineering-Frameworks, um das Verhalten des Agenten zu leiten. Die Komplexität dieser Schicht kann variieren, von einfachen Berechnungen bis hin zu komplexen logischen Verkettungen.

Werkzeuge (Tools) ermöglichen es dem Agenten, mit der Außenwelt zu interagieren, sowie auf externe Daten und Dienste zuzugreifen. Sie erweitern die Fähigkeiten des Agenten, indem sie Aktionen ermöglichen, die über die Möglichkeiten des zugrunde liegenden Modells hinausgehen. Dazu gehören Erweiterungen, Funktionen und Datenspeicher.

Unterschiede zwischen Agenten und Modellen

Der Hauptunterschied zwischen Modellen und Agenten liegt in ihren abweichenden Fähigkeiten, mit der realen Welt zu interagieren und Entscheidungen zu treffen.

Modelle sind auf das Wissen beschränkt, das sie aus ihren Trainingsdaten beziehen. Sie führen in der Regel einzelne Inferenz- oder Vorhersageaufgaben basierend auf einer Benutzerabfrage aus. Modelle verfügen über keine native Implementierung von Werkzeugen und keine native Logikschicht. Sie verwalten auch keine Sitzungshistorie oder kontinuierlichen Kontext, es sei denn, dies wurde explizit implementiert.

Agenten hingegen können ihr Wissen durch die Verbindung mit externen Systemen über Werkzeuge erweitern. Sie verwalten die Sitzungshistorie, um Multi-Turn-Inferenz / Vorhersagen basierend auf Benutzeranfragen und Entscheidungen in der Orchestrierungsschicht zu ermöglichen. Agenten verfügen über eine native Implementierung von Werkzeugen und eine kognitive Architektur, die auf Reasoning-Frameworks basiert.

Wie Agenten arbeiten

Agenten nutzen kognitive Architekturen, um ihre Ziele zu erreichen, indem sie iterativ Informationen verarbeiten, Entscheidungen treffen und nächste Schritte auf der Grundlage vorheriger Ergebnisse verfeinern. Sie können eine Vielzahl von Frameworks für Prompt-Engineering und Aufgabenplanung verwenden, um ihre Interaktionen mit der Umgebung zu optimieren.

Ein Beispiel hierfür ist das ReAct-Framework, bei dem der Agent basierend auf einer Benutzerabfrage eine Abfolge von Schritten durchführt, die Überlegungen, Handlungen und Beobachtungen umfassen, um eine abschließende Antwort zu generieren. Dieser Ablauf kann sich mehrfach wiederholen, wobei der Agent mithilfe von Werkzeugen auf externe Informationen zugreifen kann, um zu einer fundierten Antwort zu gelangen.

KI-Agent Runtime mit ReAct und Orchestrierung. Bild: KI

Agenten wählen mit Hilfe der Orchestrierungsschicht die passenden Werkzeuge aus, um auf externe Informationen zuzugreifen und diese zu verarbeiten, und sie geben nicht einfach eine Antwort basierend auf ihren Trainingsdaten.

Frameworks für Prompt-Engineering und ihre Zwecke

Agenten nutzen Prompt-Engineering Frameworks, um ihren internen Problemlösungsprozesse zu strukturieren und ihre Fähigkeit zu verbessern, mit Benutzereingaben umzugehen und Entscheidungen zu treffen. Einige der gängigen Frameworks sind:

ReAct (Reason and Act) ermöglicht es Sprachmodellen, auf eine Anfrage zu reagieren, indem sie sowohl “überlegen” (Reason) als auch handeln (Act), um eine Aufgabe zu lösen. Es hat sich gezeigt, dass dieses Framework die Interoperabilität und Vertrauenswürdigkeit von Large Language Models (LLMs) verbessert.

Chain-of-Thought (CoT) schafft die Möglichkeit für LLMs, ihre Schlussfolgerungen durch Zwischenschritte darzustellen und so eine detailliertere und fundiertere Entscheidungsfindung zu ermöglichen. Es gibt verschiedene Untertechniken von CoT wie Selbstkonsistenz, aktives Prompting und multimodales CoT, die je nach Anwendung Vor- und Nachteile haben.

Tree-of-Thoughts (ToT): Dieses Framework ist gut geeignet für explorative oder strategische Aufgaben und ermöglicht es dem Modell, verschiedene Denkketten zu untersuchen, die als Zwischenschritte für die allgemeine Problemlösung mit Sprachmodellen dienen.

Verschiedene Arten von Tools

Agenten verwenden verschiedene Arten von Tools, um mit der Außenwelt zu interagieren. Dazu gehören:

Erweiterungen (Extensions): Sie dienen als Schnittstelle zwischen einem Agenten und einer API und ermöglichen es dem Agenten, APIs unabhängig von ihrer zugrunde liegenden Implementierung nahtlos anzusprechen. Erweiterungen bringen dem Agenten bei, wie er eine API nutzen kann. Sie enthalten Beispiele, die der Agent zur Laufzeit verwendet, um die passende Erweiterung für die jeweilige Aufgabe auszuwählen. Sie können unabhängig vom Agenten erstellt werden und stellen eine Möglichkeit dar, APIs in einer standardisierten Weise anzusprechen.

Funktionen (Functions): Funktionen sind Code-Module, die eine bestimmte Aufgabe erfüllen und vom Modell aufgerufen werden. Im Gegensatz zu Erweiterungen werden Funktionen clientseitig ausgeführt, was dem Entwickler eine feinere Kontrolle über den Datenfluss ermöglicht. Sie ermöglichen die Strukturierung von Ausgaben in Formaten wie JSON, was die Integration in andere Systeme erleichtert.

Datenspeicher (Data Stores): Datenspeicher erlauben es Agenten, auf dynamische und aktuelle Informationen zuzugreifen, die über ihre ursprünglichen Trainingsdaten hinausgehen. Die Daten werden in Vektordatenbanken gespeichert, die es dem Agenten ermöglichen, die Informationen zu extrahieren, die er benötigt, um seine nächste Aktion oder Antwort zu ergänzen. Datenspeicher sind vor allem relevant für Retrieval Augmented Generation (RAG) Anwendungen.

Wie ein KI-Agent lernt, die passenden Tools zu verwenden

Um sicherzustellen, dass ein KI-Agent die richtigen Werkzeuge auswählt, können verschiedene Lernansätze verwendet werden.

In-Kontext-Lernen: Hierbei wird dem Modell ein Prompt mit Werkzeugen und Beispielen zur Verfügung gestellt, um ihm 'on the fly' zu zeigen, wie und wann es diese Werkzeuge für eine bestimmte Aufgabe verwenden soll.

Retrieval-basiertes In-Kontext-Lernen: Hierbei wird der Prompt des Modells dynamisch mit relevanten Informationen, Werkzeugen und Beispielen aus einem externen Speicher angereichert. Das ermöglicht es dem Agenten, auf bestehendes und neues Wissen zuzugreifen.

Fine-Tuning basiertes Lernen: Hierbei wird ein Modell auf einem größeren Datensatz spezifischer Beispiele trainiert, um ein besseres Verständnis davon zu entwickeln, wann und wie bestimmte Werkzeuge eingesetzt werden sollten.

Erstellung von KI-Agenten mit Google Vertex AI

Mithilfe von Vertex AI lassen sich recht einfach KI-Agenten erstellen. Google Vertex ist eine vollständig verwaltete Umgebung, mit der Entwickler Agenten, Aufgaben, Werkzeuge und Beispiele definieren können. Vertex AI bietet eine Reihe von Werkzeugen zur Erstellung, zum Testen, zur Bewertung und zur Verbesserung der Agenten. Die Plattform verwaltet die zugrunde liegende Infrastruktur, so dass sich die Entwickler auf die Entwicklung und Verfeinerung ihrer Agenten konzentrieren können.

Fazit: das Jahr der KI-Agenten

Die Möglichkeiten zum Erstellen eigener KI-Agenten sind verfügbar und werden sicherlich von vielen Anbietern genutzt. Es ist davon auszugehen, dass es in diesem Jahr eine große Zahl neuer KI-Agenten geben wird, während die Leistungsfähigkeit rapide zunehmen wird.

Christian Kunz