Anzeige
1 Monat GRATIS testen, danach für nur 9,90€/Monat!
Startseite »

KI-generierte Texte erkennen

Technik|Digitales

KI-generierte Texte erkennen
KI-Texterkennung
Wissenschaftler suchen nach neuen Methoden, um KI-generierte Texte von menschengemachten unterscheiden zu können. © Heather Desaire und Romana Jarosova/ University of Kansas

Die künstliche Intelligenz ChatGPT verfasst Aufsätze, Kommunikationen und Lyrik, die menschlichen Texten zum Verwechseln ähnlich sind. Nun haben Forschende ein Modell darauf trainiert, bestimmte wissenschaftliche Texte anhand typischer Merkmale zuverlässig Mensch oder KI zuzuordnen. DIe Trefferquote liegt bei mehr als 90 Prozent. Allerdings funktioniert dies bisher nur für einen eng umgrenzten Datensatz. Fachleute kritisieren daher, dass die Übertragbarkeit auf andere Veröffentlichungen zweifelhaft ist und sich der Detektor mit wenig Aufwand täuschen lässt.

Seit das Unternehmen OpenAI im November 2022 ihr KI-System ChatGPT veröffentlicht hat, ist die Frage, wie sich menschliche und KI-generierte Texte unterscheiden lassen, in den Fokus der Öffentlichkeit gerückt. Denn die auf lernfähigen neuronalen Netzwerken basierende generative KI kann massenhaft gefälschte Produktbewertungen generieren, scheinbar journalistische Texte verfassen und für Studierende ganze Hausarbeiten schreiben. Auch bei wissenschaftlichen Publikationen besteht die Gefahr von Täuschungsversuchen. Für bestimmte Anwendungsbereiche – beispielsweise Restaurantbewertungen – existieren bereits Detektoren, die erkennen sollen, ob ein Text von einer künstlichen Intelligenz verfasst wurde. Für die meisten Bereiche fehlen allerdings bislang zuverlässige Erkennungssysteme.

Mensch oder KI?

Ein Team um die Chemikerin Heather Desaire von der University of Kansas hat nun ein Modell trainiert, das für bestimmte wissenschaftliche Texte erkennen soll, ob sie von einem Menschen oder von ChatGPT verfasst wurden. Als Textsorte fokussierten sie sich dabei auf sogenannte Perspectives aus dem Fachjournal Science. Dabei handelt es sich um kurze Beiträge, in denen Forschende eine Einordnung zu einem bestimmten Forschungsthema oder -ergebnis geben. Als Vergleichspunkt dienten ChatGPT-Texte zu dem gleichen Thema. Dabei lautete die Aufforderung an den Chatbot stets, eine 300 bis 400 Wörter lange Zusammenfassung zu dem jeweiligen Thema zu verfassen.

Anhand eines Trainingsdatensatzes von 64 echten Perspectives und 128 von ChatGPT erstellten Texten trainierten die Forschenden ihr Modell dann auf typische Merkmale menschlicher und computergenerierter Perspectives. „Durch den manuellen Vergleich zahlreicher Beispiele aus dem Trainingsset haben wir vier Kategorien von Merkmalen identifiziert, die sich als nützlich erwiesen haben, um menschliche Texte von denen des Chatbots zu unterscheiden“, berichten Desaire und ihr Team. Demnach schreiben Menschen tendenziell längere und komplexere Absätze, variieren stärker die Satzlängen, nutzen häufiger bestimmte Satzzeichen wie Klammern, Doppelpunkte und Gedankenstriche und verwenden bestimmte Wörter häufiger als ChatGPT.

Zweifelhafte Übertragbarkeit

Ihr Modell testeten die Forschenden anschließend an zwei Datensätzen, die ebenfalls aus Science-Perspectives sowie aus auf die gleiche Weise erstellten ChatGPT-Texten bestand. Da die Testdatensätze dem Trainingsdatensatz darin ähnlich waren, erreichte das Modell hier eine Trefferquote von 100 Prozent. Sollte es die Entscheidung lediglich auf Basis von Ausschnitten aus den jeweiligen Texten treffen, lag die Genauigkeit noch bei 92 Prozent.

Anzeige

Aus Sicht des Sprachtechnologie-Professors Chris Biemann von der Universität Hamburg, der nicht an der Studie beteiligt war, ist diese nahezu perfekte Klassifikation ein Hinweis auf sogenanntes Overfitting: Das bedeutet, dass das Modell so stark auf einen spezifischen Datensatz zugeschnitten wurde, dass es bei diesem sehr gut funktioniert – „aber eben nur auf diesem einen Datensatz“, so Biemann. Auch das Autorenteam räumt ein, dass der Ansatz „für einen engeren Bereich des Schreibens konzipiert wurde. „Es muss noch ermittelt werden, inwieweit das Modell allgemein übertragbar ist.“

Täuschungsversuche und Bearbeitung nicht berücksichtigt

Eine weitere Schwäche der Studie: Die Aufforderung an ChatGPT bestand lediglich darin, allgemein eine Zusammenfassung zu schreiben. Dass es sich um einen wissenschaftlichen Text handeln sollte, teilten die Forschenden der Software nicht mit – was unter anderem erklärt, warum sich viele der im Modell verwendeten Unterscheidungsmerkmale auf typisch wissenschaftliche Formulierungen und komplexe Sätze bezogen. „Wenn ChatGPT aufgefordert würde, eine Einleitung für einen Forschungsartikel im Stil einer bestimmten wissenschaftlichen Zeitschrift zu schreiben, wäre der Inhalt wahrscheinlich schwieriger zu erkennen, sowohl für dieses Modell als auch für andere“, so die Forschenden.

Doch auch wenn das Modell selbst nur für genau die Art von Texten funktioniert, mit der es trainiert wurde, hoffen Desaire und ihr Team, dass ihre Methode auch in anderen Kontexten nützlich sein könnte. „Wir haben uns bemüht, eine leicht zugängliche Methode zu entwickeln, so dass sogar High-School-Schüler mit wenig Anleitung einen KI-Detektor für verschiedene Arten von Texten erstellen können“, sagt Desaire. „Es besteht ein Bedarf, sich mit KI-Schreiben zu befassen, und man braucht keinen Informatikabschluss, um in diesem Bereich einen Beitrag zu leisten.“

Biemann dagegen hält den Ansatz für veraltet. „Der Ansatz an sich kann zwar im Prinzip auf alle Arten von Erkennung ausgeweitet werden, allerdings sind Gegenmaßnahmen der Täuschenden nicht mitgedacht und beschränken sich auf einfache Hinweise an ChatGPT“, kritisiert er. Schon eine Anpassung der Eingabeaufforderung oder eine minimale menschliche Nachbearbeitung des generierten Textes könnten das Modell demnach unbrauchbar machen. Obwohl es bereits weiter fortgeschrittene Ansätze gebe, sei es bislang nicht möglich, zuverlässig zu unterscheiden, ob ein Mensch einen wissenschaftlichen Text selbst verfasst oder lediglich einen computergenerierten Text leicht angepasst hat.

Quelle: Heather Desaire (University of Kansas, USA) et al., Cell Reports Physical Science, doi: 10.1016/j.xcrp.2023.101426

Anzeige

Wissenschaftsjournalist Tim Schröder im Gespräch mit Forscherinnen und Forschern zu Fragen, die uns bewegen:

  • Wie kann die Wissenschaft helfen, die Herausforderungen unserer Zeit zu meistern?
  • Was werden die nächsten großen Innovationen?
  • Was gibt es auf der Erde und im Universum noch zu entdecken?

Hören Sie hier die aktuelle Episode:

Aktueller Buchtipp

Sonderpublikation in Zusammenarbeit  mit der Baden-Württemberg Stiftung
Jetzt ist morgen
Wie Forscher aus dem Südwesten die digitale Zukunft gestalten

Wissenschaftslexikon

Oxa|lat  〈n. 11; Chem.〉 Salz der Oxalsäure; Sy Oxalsalz … mehr

spar|tie|ren  〈V. t.; hat; Mus.〉 ein Musikwerk, von dem nur einzelne Stimmen vorhanden sind, ~ in Partitur setzen [<ital. spartire … mehr

Or|gel|bau|er  〈m. 3; Mus.; Berufsbez.〉 jmd., der (Kirchen–)Orgeln herstellt, repariert u. verkauft

» im Lexikon stöbern
Anzeige
Anzeige
Anzeige