AI Text Classifier – 4 Tools zum Erkennen von KI-Texten

geändert am 21. Juli 2024

Sie wollen wissen, ob ein Text vom Menschen oder von der KI stammt? KI Texte erkennen funktionierte zunächst mit dem „AI Text Classifier“ von OpenAI, der ist jedoch vom Netz. Welche Alternativen gibt es? Das beste KI-Erkennungstool – auch für deutsche Texte – ist derzeit Originality.ai*, insbesondere das im April 2024 veröffentlichte Turbo 3.0 Modell.

Hier geht’s direkt zum Tool*

KI Texte erkennen, ai Text classifier — Von wem stammt der Text? Mensch oder KI? Das Bild stammt von Neuroflash Image*.

Inhaltsverzeichnis

Gibt es den AI Text Classifier von Open AI noch?

Um es kurz zu machen, nein. Der KI-Klassifikator ist seit dem 20. Juli 2023 aufgrund seiner geringen Genauigkeit von Netz. Aber es gibt bessere Alternativen.

Welche guten Alternativen sind am Markt?

Ja, es gibt mehrere KI-Erkennungstools, aber am besten schneidet dabei Originality.ai* ab. Das Tool etablierte sich als führende Software zur KI-Texterkennung, denn es besticht durch seine hohe Genauigkeit und Benutzerfreundlichkeit.

Warum Originality.ai – welche Vorteile?

Originality.ai* gehört zu den besten Erkennungsprogrammen. Gemäß Herstellerangaben erkennt die Software Texte, die mit GPT-3, GPT-3.5 und GPT-4 generiert wurden. Lesen Sie hier weitergehende Informationen zu Originality.ai* und von ihnen durchgeführte Studien.

Neben dem Entlarven von KI führt Originality.ai* gleichzeitig einen Plagiatscheck durch. Es ist schwierig das KI-Erkennungstool auszutricksen, es erkennt auch durch KI umgeschrieben Text und solchen, dem Texter Rechtschreib- und Grammatikfehler zugefügt haben. Die Verwendung von Synonymen oder das Einfügen von Satzzeichen spürt die Software ebenfalls auf.

Hier sind einige Schlüsselfakten, die belegen, warum Originality.ai als die beste Wahl für die Erkennung von KI-generierten Texten gilt:

Hochgenaue Erkennung

Erkennungsgenauigkeit: Originality.ai erreicht eine beeindruckende Genauigkeit von über 98% bei der Identifizierung von KI-generierten Inhalten. Diese Genauigkeit ist signifikant höher als die vieler Konkurrenzprodukte, darunter auch der „veraltete“ OpenAI Text Classifier, der in Tests nur 26% der KI-generierten Texte korrekt identifizieren konnte .
Geringe Fehlerrate: Die Software weist eine Fehlerrate von unter 1% auf, was bedeutet, dass sie nur selten fälschlicherweise menschliche Texte als KI-generiert kennzeichnet. Dies ist besonders wichtig für Autoren und Unternehmen, die sicherstellen möchten, dass ihre Inhalte als originell anerkannt werden.

Umfassende Analyse

Detaillierte Ergebnisse: Im Gegensatz zu anderen Tools, die nur Wahrscheinlichkeiten angeben, liefert Originality.ai präzise prozentuale Werte, die den Anteil an KI-generiertem Inhalt und Plagiaten in einem Dokument anzeigen. Dies ermöglicht eine differenzierte Analyse der Textqualität .
Erkennung mehrerer KI-Modelle: Originality.ai kann Texte erkennen, die mit verschiedenen KI-Modellen wie GPT-2, GPT-3, ChatGPT, GPT-4o, Gemini Pro, Llama 3, Claude 3, Baidu’s Ernie und weiteren generiert wurden. Dies macht es zu einem vielseitigen Werkzeug für die Analyse moderner KI-Textgeneratoren .

Benutzerfreundlichkeit

Intuitive Benutzeroberfläche: Die Software ist einfach zu bedienen und ermöglicht es Nutzern, schnell und effizient zu überprüfen, ob ein Text von einer KI erstellt wurde. Dies ist besonders vorteilhaft für Unternehmen und Content-Agenturen, die große Mengen an Inhalten verwalten müssen .
Plagiaterkennung: Neben der KI-Texterkennung bietet Originality.ai auch Funktionen zur Plagiaterkennung, was es zu einem umfassenden Tool für die Sicherstellung der Textoriginalität macht.

Erkennung von GPT-4o-Inhalten durch Originality.ai

Die Untersuchung von Originality.ai* zeigt, dass Inhalte, die von GPT-4o generiert wurden, mit einer Genauigkeit von 96,3 % vom Modell 2.0 Standard und 97,8 % vom Modell 3.0 Turbo erkannt werden können. Dies ist eine geringfügige Abnahme im Vergleich zu über 99 % Erkennungsrate bei GPT-4, die voraussichtlich verbessert wird, sobald die AI-Detektoren auf GPT-4o-Inhalte trainiert sind.

Datensatz: Für die Bewertung der Erkennbarkeit von GPT-4o-Inhalten wurde ein Datensatz von 1000 GPT-4o-generierten Textproben verwendet, bestehend aus:

Umgeschriebene Eingabeaufforderungen (450 Proben)
Umgeschriebene menschlich verfasste Texte (325 Proben)
Von Grund auf neu geschriebene Artikel (225 Proben)

Evaluierung: Zur Bewertung wurde ein Open-Source-AI-Erkennungswerkzeug verwendet, das verschiedene Metriken wie Sensitivität, Spezifität, Genauigkeit und F1-Score ausgibt. Die Ergebnisse zeigen hohe Erkennungsraten der beiden Modelle:

Modell 2.0 Standard: Recall (True Positive Rate) = 96,4 %
Modell 3.0 Turbo: Recall (True Positive Rate) = 97,8 %

Weitere Details zu den Metriken und deren Berechnung finden sich im Originality.ai* Blogbeitrag zur Bewertung von AI-Detektoren.

Gemini KI Erkennung durch Originality.ai

In ihrer neuesten Studie untersuchte Originality.ai* das Google Bard Gemini Pro-Modell und die Fähigkeit des Originality.AI-Detektors, die Inhalte effektiv zu erkennen. Hier ihre Ergebnisse:

Originality.AI erreichte eine beeindruckende 99,0 %ige True-Positive-Rate bei der Erkennung von Gemini Pro-Inhalten.
Eine vergleichende Analyse mit GPTZero ergab eine 93,1 %ige True-Positive-Rate für die Erkennung von Gemini Pro.

Die Erkennbarkeit von Google Bard Gemini Pro stimmt mit anderen Sprachmodellen wie ChatGPT überein und Originality.ai* kann den Inhalt effektiv erkennen. Originality übertraf im Test GPTZero bei der KI-Erkennung und schnitt bei der Erkennung menschlicher Inhalte leicht schlechter ab.

Erfahrung: Originality.ai bei Women’s Health Interactive

Alison Huff, Chefredakteurin bei Women’s Health Interactive, setzt Originality.ai* ein, um die Genauigkeit und Authentizität ihrer Website-Inhalte sicherzustellen. Das Tool wurde gewählt, um Plagiate und KI-Einflüsse in medizinischen und Produktbewertungen zu verhindern. Die Integration war problemlos, und Ergebnisse zeigen, dass Artikel, wie „The Best Vibrating Panties“ (beste vibrierende Höschen), nach der Nutzung von Originality.AI 100 % plagiatsfrei sind. Alle Artikel durchlaufen nun vor der Veröffentlichung eine Prüfung mit dem Tool, um die Integrität der Inhalte zu bewahren. Alisons Erfahrungen bieten wertvolle Einblicke für Online-Publisher im Umgang mit KI im Content-Bereich.

Women’s Health Interactive ist ein leidenschaftliches Team von sexpositiven Autoren, investigativen Forschern und Branchenexperten, die sich für offene, ehrliche und furchtlose Gespräche über Sex, sexuelle Gesundheit und Beziehungen einsetzen. Insbesondere bei medizinischen und Produktbewertungen müssen ihre Inhalte frei von KI-Einflüssen und Plagiaten sein, um die Ehrlichkeit menschlicher Erfahrungen zu gewährleisten. Hier der Original-Artikel.

Nachteile von Originality.ai

Es gibt einige bekannte Fälle, in denen Originality.ai fälschlicherweise menschlich geschriebene Inhalte als KI-generiert erkannt hat (sogenannte „False Positives“):

Nutzung von Schreibhilfe-Tools

Die Verwendung von Tools wie Grammarly, ChatGPT, Quillbot oder Microsoft Word Editor kann den KI-Anteil-Score von Originality.ai erhöhen, auch wenn der Inhalt letztendlich von einem Menschen geschrieben wurde. Selbst wenn der Inhalt umformuliert oder nur leicht bearbeitet wird, kann dies zu einem falsch positiven Ergebnis führen .

Kurze Inhalte und formelhafte Texte

Originality.ai hat Schwierigkeiten mit sehr kurzen Inhalten oder formelhaften Texten wie Einleitungen, Schlussfolgerungen, Rezepte oder Literaturverzeichnisse. Diese Textarten können fälschlicherweise als KI-generiert erkannt werden.

Akademische Inhalte

Originality.ai ist nicht optimal für die Analyse akademischer Texte geeignet. Aufgrund des formelhaften Stils und der häufigen Nutzung von Schreibhilfen in der akademischen Welt, kann es hier vermehrt zu False Positives kommen. Originality.ai selbst rät davon ab, das Tool für Studentenarbeiten zu verwenden.

Geringe Genauigkeit bei älteren Versionen

In frühen Versionen von Originality.ai lag die Fehlerquote bei False Positives noch deutlich höher. Erst mit neueren Modellen wie Version 2.0.1 Standard konnte die Genauigkeit auf über 99% mit einer False Positive Rate unter 2% gesteigert werden.Insgesamt ist Originality.ai ein leistungsfähiges Tool, das aber nicht perfekt ist. Vor allem bei kurzen, formelhaften oder akademischen Texten sowie bei Verwendung von Schreibhilfen kann es zu Fehleinschätzungen kommen. Die Entwickler arbeiten kontinuierlich an der Verbesserung der Erkennungsgenauigkeit.

Kosten

Allerdings ist das übersichtliche Tool zum KI Texte erkennen nicht gratis. Dafür gibt es zusätzlich eine API. Die Bezahlung erfolgt über Credits. Ein Credit kostet 0,01 US$ und reicht für 100 Wörter KI-Testung oder Plagiatsprüfung. Für einen Text von 1.000 Wörtern müssen Sie für KI-Erkennung und Plagiatscheck rund 0,20 US$ hinblättern.

AI text classifier Alternative Originality ai Preise

Weitere KI-Erkennung-Tools zum KI Texte erkennen

Am Markt gibt es weitere KI-Detektoren, die KI Texte erkennen, teilweise sogar besser, aber nicht immer gratis oder derzeit nur als Demo-Version verfügbar:

AI Detektor Deutsch von GhostWriter (basiert auf Originality.ai*)
GPTZero*
AI Content Detector* von copyleaks
Scribbr (Englisch kostenlos, Deutsch in der Premiumversion)
Frauenhofer Institut
DetectGPT (derzeit keine Demoversion verfügbar)

Hier finden Sie eine alphabetisch sortierte Liste aller derzeit verfügbaren KI-Detektoren.

AI Detektor Deutsch von GhostWriter basiert auf Originality.ai

Der AI Detektor Deutsch von GhostWriter basiert auf Originality.ai*. Hier können Sie kostenlos deutsche Texte zwischen 100 und 500 Wörter auf KI testen. Das ist ideal, um kurze Artikel zu überprüfen, aber für längere Texte empfiehlt es sich bei Originality.ai* entsprechenden Credit zu kaufen.

Ich habe einen alten Artikel von mir und einen KI-Text getestet, der Detektor hat beide zu 99 % richtig erkannt. Einen überarbeiteten KI-Text erkannte er als 69 % menschlich und 31 % KI. Nicht schlecht.

GPTZero

Wer riesige Textmengen überprüfen will, sollte sich für die API-Schnittstelle entscheiden.

GPTZero* ist derzeit vermutlich die am meisten genutzte Software zur KI-Erkennung. Die Erkennungsrate ist recht hoch, allerdings kommt es nicht ganz an Originality.ai ran. Kleine menschliche Abänderungen im KI-Text führen schnell zu einer falschen Einschätzung. GPTZero bietet eine Chrome-Erweiterung und für Unternehmen eine API.

Das Tool gibt es als abgespeckte Variante gratis oder als Bezahlversion. Bis 5.000 Zeichen, also rund 500 bis 600 Wörter sind kostenlos, ebenso ein Add-on für Word.

Hier die Preise:

AI Content Detector copyleaks

Gemäß einer Studie ist der KI-Inhaltsdetektor* von CopyLeaks der genaueste LLM-generierte Textdetektor. In dieser Arbeit untersuchten die Autoren 124 Einsendungen von Informatikstudenten vor der Erstellung von ChatGPT. Anschließend liessen sie ChatGPT 40 Beiträge erstellen, um acht öffentlich verfügbare LLM-generierte Textdetektoren anhand von Genauigkeit, Fehlalarmen und Widerstandsfähigkeit zu bewerten. Die Texte waren auf Englisch, aber der AI Content Detector von copyleaks* scheint auch gut mit deutschen Texten zurechtzukommen. Probieren Sie es selbst aus, um deutsche Texte zu überprüfen müssen Sie allerdings ein Konto anlegen.

Fünf Seiten sind bei copyleaks* kostenlos. Brauchen Sie mehr Seiten, so können Sie dies als monatliches Abo bestellen. Der Preis erhöht sich bei 3.000 Seiten auf $20.82, bei 6.000 auf $34.16 und bei 12.000 auf $63.32. Das Abo lässt sich bis auf 120.000 Seiten im Monat erweitern.

Scribbr – deutsche KI Texte erkennen gegen Gebühr

Derzeit bietet Scribbr englische Texte bis 500 Wörter kostenlos zum Austesten an. Ziel ist, den KI-Anteil in folgenden Texten zu erkennen:

Blogbeiträge
Allgemeine Texte
Hausarbeiten
Bachelorarbeiten
Masterarbeiten

Der AI-Detector von Scribbr erkennt ChatGPT3.5, GPT4 und Google Bard in Sekundenschnelle, allerdings ist nicht bekannt, auf welchem KI-Erkennungstool der AI-Detector basiert.

Frauenhofer Institut

Auch das Frauenhofer Institut SIT setzt sich mit dem Thema KI-Texterkennung auseinander. Laut ihrer Website beschreitet das Institut folgenden Weg: „Unsere textforensischen Expert*innen arbeiten dabei unter anderem mit einer selbst entwickelten Methode zur Autorschaftsverifikation, COAV: Ursprünglich wurde es genutzt, um beispielsweise Plagiate in wissenschaftlichen Arbeiten zu erkennen. Da COAV Texte auf stilistischer Basis vergleicht, lässt sich diese Methode auch für die Erkennung von einem bestimmten „Autor“ nutzen, nämlich ChatGPT.“

Das Institut weist auch auf ein Vorschlag von Forschenden der Universität Maryland hin: Watermarking for Large Language Models. Dabei geht es darum, KI-Texte mit einem Wasserzeichen zu versehen.

DetectGPT

Eric Anthony Mitchell, Informatikstudent im vierten Jahr an der kalifornischen Stanford University, befasst sich in seiner Doktorarbeit sich mit der Entwicklung einer KI-Erkennungs-Software, die zwischen von Menschen und Large Language Models (LLM) generierten Texten unterscheidet. In ersten Experimenten identifizierte das Tool die Herkunft in 95 % der Fälle bei fünf beliebten Open-Source-LLMs genau.

Das Tool befindet sich noch im Anfangsstadium, doch Mitchell hofft, es so weit verbessern zu können, dass es der Gesellschaft zugutekommt.

Mitchell und Forscher der Stanford University entwickeln derzeit eine neue Methode, um LLM-Texte sofort zu erkennen. Dieser Ansatz vermeidet das Training eines neuen Modells und verwendet einfach das LLM, das den Text wahrscheinlich generiert hat, um seine eigenen Ergebnisse zu erkennen. Das Forscherteam nimmt an, dass sich menschliche und von KI-erzeugte Texte mathematisch klar unterscheiden.

„Mag“ die LLM den Text, stammt er vermutlich aus diesem Modell. Und dies belegt eine einzige Zahl: die Wahrscheinlichkeit, dass bestimmte Wortfolgen im Modell vorkommen. Wenn nicht, stammt es nicht aus dem Modell.“ Und dieser Ansatz funktioniert laut Mitchell recht gut: „Er ist viel besser als zufälliges Raten.“

Sein Team führte einige Experimente mit AI Text Classifier, basierend auf CPT-2, durch. Bei englischen Nachrichtenartikeln funktionierte der Check gut, bei PubMed-Artikeln aus medizinischen Fachartikeln schnitt er schlecht ab und bei deutschsprachigen Nachrichtenartikeln versagte er komplett. Diese gemischten Ergebnisse sind bei vortrainierten Modellen üblich, sagt Mitchell. Im Gegensatz dazu funktionierte DetectGPT in allen drei Bereichen ohne Probleme.

DetectGPT ist leider nicht mehr als Demo verfügbar. Aber hier ist das paper dazu.

Transparent.ai von Textbroker

Die KI-Textgenerierung mit ChatGPT & Co. macht es immer schwieriger, KI-generierte Inhalte von menschlich verfassten zu unterscheiden. Transparent.ai ist nun ein von Textbroker entwickeltes webbasiertes Tool, das Autoren dabei unterstützt, die Echtheit und den Aufwand hinter ihren Texten transparent zu machen.

Transparent.ai erfasst den Entstehungsprozess eines Textes und erstellt Zertifikate, die die Arbeitsleistung des Autors aufschlüsseln. Das Tool verfolgt, welche Teile des Textes eigenständig geschrieben, per Copy & Paste eingefügt oder während des Schreibens verändert wurden.

Was bedeutet dies für Autoren?

Arbeiten mit Transparent.ai ähnelt der Nutzung herkömmlicher Textverarbeitungsprogramme. Sie können Text formatieren, Überschriften setzen, Listen erstellen und Links einfügen. Das Tool zeichnet jeden eingegebenen Buchstaben auf und erstellt nach Fertigstellung des Textes ein Zertifikat. Dieses Zertifikat enthält Statistiken über den Arbeitsprozess, wie die Anzahl der selbst geschriebenen Wörter, die Anzahl der kopierten Wörter und den Anteil von Copy & Paste.

Es gibt zwei Arten von Zertifikaten: Das „Limited Certificate“ zeigt grundlegende Statistiken wie die endgültige Wortzahl und den Anteil von selbst verfassten Worten. Das „Full Certificate“ bietet detailliertere Angaben, einschließlich Startzeit des Schreibens, gelöschter Wörter und des Anteils von Copy & Paste.

Vorteile für Kunden

Transparent.ai ermöglicht es Autoren, ihre Arbeitsleistung nachvollziehbar zu dokumentieren und Kunden zu zeigen, dass ihre Texte tatsächlich von Menschen geschrieben wurden, trotz der fortschrittlichen KI-Textgenerierung.

Risiko durch Fiverr – neuer Markt für „Tippsen“?

Das Programm Transparent.ai zählt jeden einzelnen Anschlag, den Autoren über die Tastatur eintippen. Mal sehen, wie lange es dauert, bis erste Freelancer aus Billiglohnländern über Fiverr ihre Dienste für € 5 zum Abtippen von KI-generierten Texten anbieten. Bei entsprechender Textlänge für Autoren durchaus lohnend.

Warum KI Texte erkennen?

Hier habe ich einmal ChatGPT zu seiner Meinung befragt. Hier mein Prompt: „Nenne mir vier Gründe, warum ich KI-Texte erkennen sollte. Bitte kurz und bündig.“

Glaubwürdigkeit: KI-generierte Texte können von menschlich verfassten Texten schwer zu unterscheiden sein. Das Erkennen von KI-Texten hilft dabei, Fehlinformationen und irreführende Inhalte zu vermeiden.
Kritische Analyse: Die Fähigkeit, KI-Texte zu identifizieren, ermöglicht es, Informationen kritisch zu hinterfragen und fundierte Entscheidungen zu treffen, anstatt blind zu vertrauen.
Authentizität: In einer digitalen Welt, in der Manipulation von Informationen zunimmt, hilft die Erkennung von KI-Texten dabei, die Authentizität von Inhalten zu wahren.
Verhinderung von Plagiat: Beim Schreiben oder Recherchieren ist es wichtig, Originalität zu bewahren. Das Erkennen von KI-Texten kann verhindern, dass unbeabsichtigt auf KI-generierte Quellen zurückgegriffen wird, ohne sie angemessen zu kennzeichnen.

KI im Unterricht erlauben?

Was ChatGPT nicht erwähnt hat – gut ich wollte nur vier Gründe wissen – ist die Problematik an Schulen. Viele Lehrer sind schlicht überfordert, noch zu erkennen, was von ihren Schülern stammt und was KI dazu beigetragen hat. Aber zum Glück sorgt KI im Unterricht nicht nur für Probleme, sondern bietet auch Vorteile. Hier ein Beitrag, wie sich künstliche Intelligenz an Schulen sinnvoll einsetzen lässt und wie Schüler den richtigen Umgang damit lernen.

ChatGPT & Co an Universitäten zulassen?

Ähnlich wie an Schulen sieht es an Universitäten aus. Ging es früher darum nur Plagiate zu entlarven, kommt heute die KI-Problematik hinzu. Schließlich sollen Lehrer und Professoren die Arbeit und das Wissen von Schülern und Studenten bewerten und nicht das, was sich ChatGPT zusammenreimt. Hier braucht es klare Regeln, was erlaubt ist und was nicht, ähnlich wie früher die Nutzung eines Taschenrechners während einer Klausur. Bei schriftlichen Abschlussarbeiten wird es natürlich schwieriger den Rückgriff auf KI zu erkennen., insbesondere, wenn die Nutzung verboten ist. Besser ist eine klare Kennzeichnungspflicht, ähnlich wie jede genutzte herkömmliche Quelle.

Erkennen Suchmaschinen wie Google KI-Texte?

Ein weiterer Punkt sind Google & Co. „Nichts genaues weiß man nicht“. Straft Google KI-Texte ab oder nicht? Angeblich soll es keine Rolle spielen, wer den Text kreiert hat – solange er gut ist. Und wie sollte Google erkennen, ob der Text vom Menschen oder einer KI stammt, die Suchmaschine bräuchte einen zuverlässigen KI-Detektor. Hat Google einen?

Wie kann ich selbst KI-Texten auf die Schliche kommen?

Ich habe schon zahlreiche KI-Texte von ChatGPT generieren lassen, dabei ist mir insbesondere aufgefallen, dass ChatGPT den Passiv liebt, auch wenn ich die KI im Prompt dazu auffordere aktiv zu schreiben. Die Formulierungen sind oft im Wikipedia-Stil – lieblos und wenig einfallsreich.

Es existieren bestimmte Hinweise, anhand derer man KI-Texte identifizieren kann:

Wiederholung von Texte und Schlüsselwörtern: Falls ein Text wiederholt dieselben Schlüsselwörter oder Ausdrücke nutzt, kann dies als Anhaltspunkt für KI-Generierung dienen. KI-Systeme verwenden häufig gleiche Keywords, um die Relevanz des Textes zu einem bestimmten Thema zu erhöhen.
Wort- oder Phrasenwahl eingeschränkt: Menschliche Texte enthalten eine größere Vielfalt an verwendeten Wörtern und Phrasen. Menschen mischen in guten Texten gerne Formal- und Umgangssprache und nutzen auch mal ein Sprichwort oder Zitat. Auch kreieren sie neue Wörter.
Unnatürliche Syntax: KI-Systeme sind eventuell nicht in der Lage, komplexe Satzstrukturen und Grammatikregeln präzise anzuwenden. Daher können unnatürliche Formulierungen und Grammatikfehler auftreten, letztere kommen aber allerdings eher selten vor.
Rechtschreibung: Menschen machen Fehler, die KI weniger. Das soll allerdings nicht heißen, dass Menschen diese fortan einbauen sollen, um KI zu kaschieren.
Begrenzter Informationsgehalt: Von KI erstellte Texte erinnern mich oft an Politiker. Viel geschwätzt und nichts gesagt. Insbesondere kommt das Wort „könnte“ sehr oft vor, ChatGPT vermeidet gerne konkrete Aussagen.
Fehlender persönlicher Stil: KI-Systeme sind nicht dazu fähig, einen individuellen Stil oder eine persönliche Stimme im Text zu entwickeln. Falls ein Text keine erkennbare persönliche Note aufweist, hat ihn mit hoher Wahrscheinlichkeit eine KI generiert.

Können Texter und Blogger KI-Texte kaschieren?

Gerade Blogger möchten nicht unbedingt, dass ihre Leser merken, dass der Text von einer KI stammt und nicht von ihnen persönlich. Da heißt es, die vorangegangenen Punkte zu beherzigen. ChatGPT & Co. sollen bei der Arbeit helfen, aber sie sollen nicht den Menschen dahinter gänzlich ersetzen.

Wie erkennen KI-Detektoren KI?

KI-Detektoren nutzen vergleichbare Sprachmodelle wie ChatGPT und andere KI-Textgeneratoren. Kurz gesagt, sie berechnen die Wahrscheinlichkeit, dass Wort B auf Wort A folgt. Wenn die KI-Textgeneratoren einen ähnlichen Text erstellen würden, wird geschlussfolgert, dass der eingegebene Text von ChatGPT oder einem anderen KI-Textgenerator stammt.

Dabei spielen zwei Metriken eine Rolle:

Perplexität

Definition: Perplexität bedeutet „Verwirrung“.
Erklärung: Ein Text mit niedriger Perplexität ist nicht verwirrend und stammt daher wahrscheinlich von KI. Eine hohe Perplexität im Text, weist auf einem Menschen hin.
Anwendung: KI-Textgeneratoren erstellen Texte, indem sie die Wahrscheinlichkeit für das nächste Wort in einem Satz berechnen. Dadurch entstehen sinnvolle und flüssige Texte, die jedoch als langweilig oder repetitiv wahrgenommen werden können. Menschliche Texte neigen dazu, eine höhere Perplexität aufzuweisen, sind kreativer, enthalten aber auch mehr Tippfehler als KI-generierte Texte.
Beispiel: Für den Satz ‚Der Mann ging in den Laden, um …‘ gibt es plausiblere (niedrige Perplexität) und weniger plausible Möglichkeiten (hohe Perplexität), ihn zu ergänzen.
Perplexitätslevel eines Beispielsatzes:
- ‚Der Mann ging in den Laden, um Lebensmittel einzukaufen.‘ (Niedrige Perplexität: sehr wahrscheinliche Fortsetzung)
- ‚Der Mann ging in den Laden, um einen neuen Hut zu finden.‘ (Niedrige bis mittlere Perplexität: etwas unwahrscheinlichere Fortsetzung)
- ‚Der Mann ging in den Laden, um sich die neuesten Zeitungsartikel anzuschauen.‘ (Mittlere Perplexität: noch unwahrscheinlichere Fortsetzung)
- ‚Der Mann ging in den Laden, um ein seltenes Insekt zu fotografieren.‘ (Hohe Perplexität: unwahrscheinlichste Fortsetzung. Enthält Tippfehler ‚Insekt‘)

Burstiness

Definition: Burstiness bedeutet so viel wie „durchbrechen“ oder „aufsprengen“. Burstiness ist ein Maß für die Variation in der Satzstruktur und der Satzlänge.
Fragestellung: Wird die gewöhnliche Satzstruktur „durchbrochen“, also variiert?
Anwendung: Von KI erstellte Texte weisen ein niedrigeres Level an Burstiness auf, weil KI-Textgeneratoren tendenziell Sätze mit einer gewöhnlichen Struktur und Länge generieren.

Perplexität und Burstiness sind ähnliche Konzepte, aber Perplexität spielt sich auf Wortebene ab, während Burstiness sich auf die Satzebene bezieht.

Fazit: KI-Detektoren liefern Indizien, aber keine Beweise

Derzeit ist es äußerst schwierig mit KI-Detektoren KI-Texte von vom Menschen geschriebenen Texten zu unterscheiden, aber sie werden immer besser. Die Trefferhäufigkeit ist noch nicht immer zuverlässig. Gerade Lehrer und Professoren sollten sich deshalb nicht alleine auf die Ergebnisse verlassen, denn so können schnell Fehlurteile entstehen, sie sollten immer noch andere Faktoren, wie die eigene Einschätzung hinzuziehen. Dies ist wie beim Arzt, der sich bei der Krebsdiagnose nicht alleine auf Tumormarker verlässt. Es sind handfeste Indizien, aber keine Beweise. Vielleicht sollten Lehrpläne im Bildungsbereich wieder mehr auf mündliche Prüfungen zurückgreifen.

Hier geht’s weiter mit KI: