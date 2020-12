Potsdam

Tobias Kade ist nicht überzeugt: „Es gibt keine Einleitung, keinen Spannungsbogen, nichts Persönliches“. Der Torwart von Grün-Weiß Niemegk ( Potsdam-Mittelmark) hat für uns Spielberichte „blindverkostet“ und mühelos erkannt, worauf wir hinauswollen: Robotertexte. Seit dem vergangenen Jahr sind sie auf fussball.de, der Amateurfußballplattform des DFB, zu lesen.

Für Begegnungen, zu denen kein Reporter geschickt wird, werden die Texte auf Basis der Daten aus dem DFB-Netzwerk automatisch erstellt. Auch einige Zeitungen nutzen bereits computergenerierte Sportbeiträge. Grobe Fehler hat der Torwart in den Berichten nicht entdeckt, allerdings auch keinen Mehrwert: „Da kann ich mir auch einfach die Spieldaten und die Tabelle ansehen“, urteilt er. Doch das ist genau der Punkt: Viele Menschen lesen nicht gern Tabellen.

Anzeige

Der Computer versteht kein Wort

Bei Software, die solche Beiträge liefert, handelt es sich um Sprachmodelle. Ein künstliches neuronales Netzwerk generiert Wort für Wort auf Basis von Wahrscheinlichkeiten. Während der DFB mit seinem Service derzeit noch keine Pokale holt, hat die US-amerikanische Organisation OpenAI vor ein paar Wochen ein Sprachmodell vorgestellt, das in der Fachwelt und darüber hinaus hohe Wellen geschlagen hat.

GPT-3 (Generative Pretrained Transformer) schreibt witzig, gewandt und in vollkommen unterschiedlichen Stilrichtungen. Mit einem kleinen Input angestoßen, produziert das System vom Social Media-Post bis zum Drehbuch jedes gewünschte Ergebnis. Und doch versteht es – darin sind sich viele noch einig – kein Wort.

Sebastian Stober, Professor am Institut für Intelligente Kooperierende Systeme an der Universität Magdeburg. Quelle: Jana Dünnhaupt / OVGU

Sebastian Stober, Professor am Institut für Intelligente Kooperierende Systeme an der Universität Magdeburg, sieht das differenzierter. Wo beginnt schließlich das Verstehen? Obwohl sein Arbeitsplatz das „Artificial Intelligence Lab“ der Uni ist, mag sich der Wissenschaftler mit dem Terminus Künstliche Intelligenz nicht anfreunden. „Es ist eine andere Form der Intelligenz“, sagt er. Sprachmodelle wie GPT-3 verstehen seiner Ansicht nach durchaus eine ganze Menge. Sie verstehen nur anders.

Schon GPT-2, der Vorgänger des aktuellen OpenAI-Sprachmodells, war beeindruckend. Man befürchtete, das System könne für eine Welle von Falschnachrichten verwendet werden, und hielt den Code darum entgegen des üblichen Vorgehens zunächst unter Verschluss. Allerdings ist nichts dergleichen geschehen. Die grundsätzliche Neuerung von GPT-3 ist die noch einmal stark angewachsene Größe. Das Modell wurde mit einer gewaltigen Textmenge aus dem Internet trainiert, die 300 Milliarden „Tokens“ umfasst.

Das neuronale Netzwerk lernt selbstständig

Unter dem Begriff kann man in diesem Zusammenhang Wortteile und Satzzeichen verstehen. Jedem gelernten Token weist das Modell eine ID zu, und jede ID wird durch einen Vektor repräsentiert. Hier beginnt das „Verstehen“, denn die Werte des Vektors erfassen nicht nur das Wort an sich, sondern auch Teile der Semantik. Wörter bekommen einen Bezug, eine Umgebung in einem hochdimensionalen virtuellen Raum. Was genau im Sprachmodell vorgeht, weiß jedoch niemand. Das neuronale Netzwerk lernt selbstständig aus den zur Verfügung gestellten Trainingsdaten; das System bleibt eine Blackbox.

Der generierte Text entsteht Wort für Wort. Am Anfang steht eine Eingabe – das kann ein Textbeginn, eine Aufgabe oder eine Frage sein – anhand der das Modell errechnet, welches Wort mit welcher Wahrscheinlichkeit folgen wird. Im Training war es das Ziel, jeweils das Originalwort des Trainingstextes zu finden. Nun kann GPT-3 nach jeder beliebigen Eingabe Wort für Wort so aneinanderreihen, dass sich ein sinnvoller Texte ergibt.

Gut geeignet für Gebrauchstexte

Das Neue entsteht immer durch einen Gedanken, der mit dem Alten bricht. Dafür ist ein Modell, das sich stets auf seine Erfahrungen bezieht, nicht gemacht. Eine Bereicherung der Weltliteratur erwartet Stober darum von keinem Sprachmodell, und sei es noch so gewaltig. Mit reinen Gebrauchstexten wie Wetterberichten oder Produktbeschreibungen braucht sich allerdings schon heute im Grunde kein menschlicher Autor mehr herumzuschlagen.

Und die Fußballspielberichte? Als reine Computerprosa, die Fakt für Fakt den Spielverlauf abarbeitet, sind sie lediglich aufgeblasene Information und damit Zeitverschwendung; da sind sich der Wissenschaftler und der Torwart einig. „Aber wenn man sie zum Beispiel mit dem Liveticker kombinieren würde, ...“, schlägt Kade vor. Treffer. Der DFB lädt Verantwortliche der Mannschaften ein, die Texte zu editieren und damit zu individualisieren. Was hier entsteht, ist kein Ersatz für einen Sportreporter, sondern sein Assistent.

Von Ina Schmiedeberg