ERNIE schlägt BERT: Baidu mit dem besseren Modell zur Spracherkennung

Baidu-Tasse Mit ERNIE gibt es einen mit BERT vergleichbaren Algorithmus zum Erkennen natürlicher Sprache. Und nicht Google nutzt ERNIE, sondern der chinesische Konkurrent Baidu.

In diesem Jahr hatte Google mit der Einführung von BERT für Furore gesorgt. Mit dem "Bidirectional Encoder Representations from Transformers" ist Google in der Lage, auch komplexe Suchanfragen sowie Inhalte auf Websites besser zu verstehen. Dabei werden die Beziehungen von Worten in einem Text sowohl vorwärts als auch rückwärts bestimmt. Auf diese Weise kann Google zum Beispiel bei mehrdeutigen Begriffen ermitteln, wofür sie inhaltlich stehen.

BERT wird sowohl für normale Suchanfragen als auch für das Ausspielen von Featured Snippets verwendet, und das inzwischen für mehr als 70 Sprachen.

ERNIE schlägt BERT bei GLUE

Doch nun scheint Baidu, der chinesische Suchmaschinenanbieter, Google den Rang abgelaufen zu haben - zumindest, wenn es um das Verstehen natürlicher Sprache geht.

Als Vergleichsmaßstab dient ein Test mit dem Namen General Language Understanding Evaluation ("GLUE"). Dieser Test misst, wie gut ein System künstlicher Intelligenz dazu in der Lage ist, die menschliche Sprache zu verstehen.

Zum Vergleich: Ein durchschnittlicher Mensch erreicht auf der bis 100 reichenden GLUE-Skala 87 Punkte. Baidus Forscherteam ist es nun als erstem gelungen, 90 Punkte zu übertreffen. Dabei kam ein Modell mit dem Namen ERNIE zur Anwendung. In der GLUE-Rankingliste liegt ERNIE derzeit auf dem ersten Platz.

Die zugegebenrmaßen etwas bemühte Abkürzung steht für "Enhanced Representation through kNowledge IntEgration". Und obwohl Baidu ein chinesischer Anbieter ist und damit die chinesische Sprache im Fokus hat, eignet sich ERNIE auch hervorragend für andere Sprachen wie Englisch. Dies haben, außer dem Bezug zur Sesamstraße, die Modelle ERNIE und BERT gemein.

So funktionieren ERNIE und BERT

Zunächst zur Funktionsweise von BERT: Dieses Modell arbeitet im Gegensatz zu früheren Modellen der Spracherkennung bidirektional. Das bedeuet, es können nicht nur nachfolgende, sondern vorhergehende Worte in einem Text vorhergesagt werden. In einem gegebenen Text verbirgt BERT in zufälliger Weise 15 Prozent der Worte und versucht dann, diese aus den übrigen Worten im Text zu bestimmen. So könnte zum Beispiel im Satz "Der Mann ging in den ___, um Milch zu kaufen" sowohl der Anfang als auch das Ende des Satzes Hinweise auf das fehlende Wort liefern.

Auch ERNIE benutzt die Technik des Verbergens einzelner Worte im Text. Allerdings waren Anpassungen notwendig, um das Modell auf die chinesische Sprache anwenden zu können. Das liegt an folgendem Unterschied: In Sprachen wie Englisch oder Deutsch dient ein Wort als semantische Einheit. Ein Wort kann für sich alleine genommen eine Bedeutung besitzen. Das ist im Chinesischen anders. Hier gibt es Begriffe, die nur in Verbindung mit anderen verstanden werden können. Beispiel: 灵 (líng) kann entweder clever (机灵, jīlíng) oder Seele (灵魂, línghún) bedeuten.

Die Entwickler von Baidu änderten ERNIE daher so um, dass mehrere aufeinanderfolgende Schriftzeichen maskiert wurden, anstatt nur einzelne auszublenden. Zudem tranierten sie ERNIE, zwischen Zeichenketten mit Bedeutung und zufälligen Zeichenketten voneinnder zu unterscheiden. Auf diese Weise ist ERNIE wesnetlich besser für die chinesische Sprache geeignet und außerdem zuverlässiger darin, fehlende Worte vorherzusagen.

Es zeigte sich, dass dieser Ansatz auch für die englische Sprache besser funktioniert, denn auch im Englischen kann es passieren, dass eine Reihe von Worten eine andere Aussage besitzt als die Worte für sich genommen.

Den Unterschied zwischen ERNIE und BERT zeigt das folgende Beispiel. Gegeben sei der Satz: "Ein Mann geht in einen Laden, um sich Schuhe zu kaufen."

BERT würde eine Maskierung wie die folgende verwenden:

"__ Mann geht in den __, um sich Schuhe zu __."

Bei ERNIE könnte das so aussehen:

"Ein Mann geht __ __ __, um sich Schuhe __ __."

ERNIE ist damit ein robusterer Ansatz, der eher auf der Bedeutung als auf der statistischen Verwendung von Wordmustern aufbaut.

Weitere Vorteile von ERNIE

Die aktuelle Version von ERNIE bietet gegenüber BERT zudem weitere Vorteile. So werden auch die Reihenfolge von Sätzen sowie die Abstände zwischen diesen berücksichtigt. Damit lassen sich logische Pfade innerhalb eines Absatzes nachvollziehen.

Wesentlich ist aber eine Technik, die sich "Continous Training" nennt und die es ermöglicht, ständig zu lernen, ohne das zuvor Gelernte zu vergessen. Dadurch wird die Erkennung stetig besser, und das mit nur unwesentlicher menschlicher Unterstützung.

Baidu nutzt ERNIE, um bessere Suchergebnisse zu liefern, Duplicate Content aus dem Newsfeed herauszuhalten und um die Kommunikationsfähigkeiten seines digitalen Assistenten Xioa Du zu verbessern.

Die Beschreibung von ERNIE und seiner aktuellen Architektur sind in dieser wissenschaftlichern Arbeit nachzulesen. Zu den Aufgaben von ERNIE gehören demnach beispielsweise das Erkennen ähnlicher Texte, das Beantworten von Fragen, Sentimentanalyse, also das Erkennen von Stimmungen und Emotionen. Das Framework setzt auf einer Kombination von Vorab-Trainings und Feinabstimmung.

Spannend ist die Frage, ob und wann Google und andere Suchmaschinen ebenfalls auf ERNIE zurückgreifen werden. Die Entwicklung des Modells zeigt jedenfalls, wie schnell inzwischen der Fortschritt im Bereich der Spracherkennung voranschreitet.

(Attribution 2.0 Generic (CC BY 2.0) creativecommons.org/licenses/by/2.0/)

Christian Kunz