Google stellt SynthID, seine Technologie zum Watermarking und zum Erkennen von KI-Texten, jetzt als Open Source zur Verfügung.
Die zunehmende Menge von KI-Inhalten im Web wird immer mehr zum Problem. Erstens leidet darunter die Qualität, weil anstelle von neuem Content nur noch bestehende Inhalte per KI aufbereitet werden, und zweitens entstehen per KI auch wachsende Mengen an faktisch falschen Inhalten - ob gewollt oder nur aus Versehen.
Sie benötigen SEO-Beratung für Ihre Website?
Daher kommt einer möglichst zuverlässigen Erkennung von KI-Inhalten eine wichtige Bedeutung bei. Um den KI-Ursprung von Texten zu erkennen und um solche Texte mit einem digitalen Wasserzeichen zu versehen, hatte Google SynthID entwickelt. Im Frühjahr dieses Jahres hatte Google die Verwendung von SythID auch für sein eigenes Large Language Model Gemini und das ebenfalls hauseigene Video-Modell Veo ermöglicht und gleichzeitig angekündigt, SynthID im weiteren Verlauf des Jahres auch als Open Source zur Verfügung zu stellen.
Genau das ist jetzt passiert. Google gab das per Twitter bekannt.
SynthID kann entweder per HuggingFace oder über das Responsible GenAI Toolkit heruntergeladen werden.
Watermarking von Texten basiert auf der Eigenschaft von Large Language Models, die Wahrscheinlichkeit von Token vorherzusagen. Ein Token kann ein einzelnes Zeichen sein, aber auch ein Wort oder eine Phrase. Jedem möglichen Token wird ein bestimmter Wahrscheinlichkeitswert zugeordnet. Token mit einem höheren Wert haben bessere Chancen, verwendet zu werden. Ein Large Language Model wiederholt die Auswahl von Token, um zusammenhängende Antworten zu erzeugen.
SynthID erstellt für den Menschen nicht erkennbare Wasserzeichen während der Textgenerierung. Dazu werden zusätzliche Informationen in die Verteilung der Token eingebracht, indem die Wahrscheinlichkeit für die Verwendung von Token moduliert wird. Dabei werden weder die Qualität noch die Genauigkeit, die Kreativität oder die Geschwindigkeit der Texterzeugung beeinträchtigt.
Auf diese Weise lassen sich mit einem Wasserzeichen versehene Texte recht zuverlässig erkennen. Das wird anhand des folgenden Beispiels einer KI-generierten E-Mail visualisiert:
Google räumt jedoch selbst ein, dass SynthID nicht die Allzweckwaffe zum Erkennen von KI-generierten Inhalten ist. Immerhin handelt es sich dabei aber um einen Baustein, mit dem verlässlichere Tools zum Erkennen von KI-Content erstellt werden können.
Einschränkungen bei der Erkennung gibt es zum Beispiel bei kurzen Texten sowie bei solchen KI-Texten, die umfassend umgeschrieben oder übersetzt wurden. Auch bei Antworten auf faktische Fragen wie zum Beispiel "Welches ist die Hauptstadt Deutschlands" sowie bei Prompts, bei deren Anworten keine oder nur geringe Variationen erwartet werden, sind der Erkennung per SynthID Grenzen gesetzt.
Dennoch bietet SynthID deutlich bessere Möglichkeiten zum Erkennen von KI-Content als viele bestehende Tools, und das ist angesichts des bereits heute hohen Anteils maschinell erzeugter Inhalte im Web zu begrüßen.