KI-generierte Texte erkennen

Seit das Unternehmen OpenAI im November 2022 ihr KI-System ChatGPT veröffentlicht hat, ist die Frage, wie sich menschliche und KI-generierte Texte unterscheiden lassen, in den Fokus der Öffentlichkeit gerückt. Denn die auf lernfähigen neuronalen Netzwerken basierende generative KI kann massenhaft gefälschte Produktbewertungen generieren, scheinbar journalistische Texte verfassen und für Studierende ganze Hausarbeiten schreiben. Auch bei wissenschaftlichen Publikationen besteht die Gefahr von Täuschungsversuchen. Für bestimmte Anwendungsbereiche – beispielsweise Restaurantbewertungen – existieren bereits Detektoren, die erkennen sollen, ob ein Text von einer künstlichen Intelligenz verfasst wurde. Für die meisten Bereiche fehlen allerdings bislang zuverlässige Erkennungssysteme.

Mensch oder KI?

Ein Team um die Chemikerin Heather Desaire von der University of Kansas hat nun ein Modell trainiert, das für bestimmte wissenschaftliche Texte erkennen soll, ob sie von einem Menschen oder von ChatGPT verfasst wurden. Als Textsorte fokussierten sie sich dabei auf sogenannte Perspectives aus dem Fachjournal Science. Dabei handelt es sich um kurze Beiträge, in denen Forschende eine Einordnung zu einem bestimmten Forschungsthema oder -ergebnis geben. Als Vergleichspunkt dienten ChatGPT-Texte zu dem gleichen Thema. Dabei lautete die Aufforderung an den Chatbot stets, eine 300 bis 400 Wörter lange Zusammenfassung zu dem jeweiligen Thema zu verfassen.

Anhand eines Trainingsdatensatzes von 64 echten Perspectives und 128 von ChatGPT erstellten Texten trainierten die Forschenden ihr Modell dann auf typische Merkmale menschlicher und computergenerierter Perspectives. „Durch den manuellen Vergleich zahlreicher Beispiele aus dem Trainingsset haben wir vier Kategorien von Merkmalen identifiziert, die sich als nützlich erwiesen haben, um menschliche Texte von denen des Chatbots zu unterscheiden“, berichten Desaire und ihr Team. Demnach schreiben Menschen tendenziell längere und komplexere Absätze, variieren stärker die Satzlängen, nutzen häufiger bestimmte Satzzeichen wie Klammern, Doppelpunkte und Gedankenstriche und verwenden bestimmte Wörter häufiger als ChatGPT.

Zweifelhafte Übertragbarkeit

Ihr Modell testeten die Forschenden anschließend an zwei Datensätzen, die ebenfalls aus Science-Perspectives sowie aus auf die gleiche Weise erstellten ChatGPT-Texten bestand. Da die Testdatensätze dem Trainingsdatensatz darin ähnlich waren, erreichte das Modell hier eine Trefferquote von 100 Prozent. Sollte es die Entscheidung lediglich auf Basis von Ausschnitten aus den jeweiligen Texten treffen, lag die Genauigkeit noch bei 92 Prozent.

Aus Sicht des Sprachtechnologie-Professors Chris Biemann von der Universität Hamburg, der nicht an der Studie beteiligt war, ist diese nahezu perfekte Klassifikation ein Hinweis auf sogenanntes Overfitting: Das bedeutet, dass das Modell so stark auf einen spezifischen Datensatz zugeschnitten wurde, dass es bei diesem sehr gut funktioniert – „aber eben nur auf diesem einen Datensatz“, so Biemann. Auch das Autorenteam räumt ein, dass der Ansatz „für einen engeren Bereich des Schreibens konzipiert wurde. „Es muss noch ermittelt werden, inwieweit das Modell allgemein übertragbar ist.“