KI-Transkription – Sprache in Text umwandeln

geändert am 22. Februar 2024

KI-Transkription bezieht sich auf die Verwendung künstlicher Intelligenz (KI) zur automatisierten Umwandlung gesprochener Sprache in geschriebenen Text. Die KI-Tools transkribieren Interviews, Meetings, Audioaufzeichnungen oder generieren Untertitel für Videos – und dies schnell und präzise.

Transkription, Roboter mit Kopfhörer und Mikrofon, der einen Text auf ein Blatt Papier schreibt
Erzeugt über Bing Chat mit Dall-E 3.

Was ist bei automatischer KI-Transkription zu beachten?

Automatisch erstellte Transkripte sind stets zu überprüfen und gegebenenfalls zu korrigieren, da sie Fehler enthalten können. Die Genauigkeit hängt von verschiedenen Faktoren ab, wie der Qualität der Audioaufnahme, dem Akzent oder Dialekt der Sprecher, der Stärke der Hintergrundgeräusche und dem verwendeten Fachvokabular. Aber die Ergebnisse der Transkriptionssoftware lassen sich inzwischen sehen und sparen auf jeden Fall Zeit und Geld.

4 gute bis sehr gute kostenpflichtige Transkriptionssoftware

Transkribieren lassen sich Audio- (mp3) und Videodateien (mp4). Aber auch Audio- und Videoformate, wie wav, ogg, mov oder wma sind möglich. Die Transkriptionssoftware kann auch verschiedene Sprecher unterscheiden und entsprechend im Text kennzeichnen. Getestet habe ich allerdings nur einen Sprecher.

Als Aufgabe habe ich zum Testen folgende mp3-Datei mit dem Thema „Erkennung von KI-generierten Texten“ hochgeladen.

Aufgabe:

Ursprungstext: „Erkennung von KI-generierten Texten:

Allgemeine Verfahren: Die Unterscheidung zwischen menschlich verfassten und KI-generierten Texten ist entscheidend Hier sind einige bewährte Verfahren: Stilanalyse: KI-Texte weisen oft einen konsistenten, aber ungewöhnlichen Stil auf. Grammatik und Syntax: Fehler in Grammatik und Syntax können auf automatische Generierung hindeuten. Überwachtes Lernen: Modelle können trainiert werden, um diese Unterscheidung zu treffen. NLP-Textklassifikation: Spezialisierte NLP-Modelle können für diese Aufgabe trainiert werden. APIs von KI-Unternehmen: Spezialisierte Technologien stehen zur Verfügung, um Texte zu überprüfen. Menschliche Überprüfung: Erfahrene Autoren können subtile Unterschiede erkennen. Die Kombination dieser Verfahren führt oft zu den besten Ergebnissen und sollte an aktuelle Entwicklungen angepasst werden.“

Der Text stammt von ChatGPT, gesprochen wird er von der deutschen KI-Stimme Killian von Synthesys*:

Hier sind einige gute bis sehr gute Tools zur KI-Transkription. Sie sind – bis auf Whisper – kostenpflichtig, bieten aber kostenlose Testmöglichkeiten.

Sonix.ai

Sonix.ai* ist eine der besten KI-Transkriptionssoftware. Das Tool ist einfach und intuitiv zu bedienen. Das Ergebnis besticht durch Genauigkeit, hohe Transkriptionsgeschwindigkeit und lässt sich in verschiedenen Formaten herunterladen.

Die Plattform ermöglicht Transkriptionen in über 38 Sprachen, einschließlich Deutsch. Das Serviceangebot lässt sich zunächst kostenlos testen. Einziger Nachteil, die Benutzeroberfläche gibt es nur auf Englisch.

Sonix eignet sich für Journalisten, Podcaster, Videobearbeiter, Dokumentarfilmer, Reality-TV-Produzenten, Autoren, Content-Produzenten und alle, die eine fesselnde Geschichte zu erzählen haben.

Zunächst müssen Sie einen Account anlegen, danach einfach die zu transkribierende Datei über „Upload“ hochladen und auf Deutsch transkribieren.


Sonix.ai* liefert danach eine erste Einschätzung zur Qualität.

Am Ende erhalten Sie eine E-Mail mit einem Link und folgendem Hinweis: „Eine automatische Transkription ist nicht 100 % genau. Der Sonix Editor™ synchronisiert Audio und Text, um die Bearbeitung zum Kinderspiel zu machen – Sie können die Abschrift direkt in Ihrem Browser bearbeiten und exportieren.“

Auf die entsprechende Datei klicken und bearbeiten. Der Texteditor ist dabei eine wertvolle Hilfe, denn Sie hören den Text und können ihn entsprechend editieren.

Ergebnis:

Bis auf einige kleine Fehler, sehr gut zu gebrauchen:

„Synthesys KI-Texte erkennen Speaker1: Erkennung von KI generierten Texten. Allgemeine Verfahren. Die Unterscheidung zwischen menschlich verfassten und KI generierten Texten ist entscheidend. Hier sind einige bewährte Verfahren. Stilanalyse ite (KI) Texte weisen oft einen konsistenten, aber ungewöhnlichen Stil auf. Grammatik und Syntaxfehler (Syntax. Fehler) in Grammatik und Syntax können auf automatische Generierung hindeuten. Überwachtes Lernen. Modelle können trainiert werden, um diese Unterscheidung zu treffen. In LB (NLP-) Textklassifikation spezialisierte NLP Modelle können für diese Aufgabe trainiert werden. Api ist (APIs) von kein (KI) Unternehmen. Spezialisierte Technologien stehen zur Verfügung, um Texte zu überprüfen. Menschliche Überprüfung. Erfahrene Autoren können subtile Unterschiede erkennen. Die Kombination dieser Verfahren führt oft zu den besten Ergebnissen und sollte an aktuelle Entwicklungen angepasst werden.“

Preise:

Die kostenlose Trialversion von Sonix.ai* beinhaltet 30 Minuten kostenlose Transkription, ansonsten entstehen folgende Kosten:

Transkription Sonix

Sonix.ai* kann noch viel mehr, was im Detail, finden Sie auf der Website des Herstellers. Laut eigenen Angaben nutzen Millionen von Benutzern in über 100 Ländern Sonix, um Zeit und Geld zu sparen.

Kommentar eines Users:

“Gobsmackingly amazing! Totally staggered at the accuracy, especially with multiple speakers.” Paul Z. from Schaffhausen, Switzerland

Beey.io

Beey.io* ist eine Plattform für die automatische Transkription und Untertitelung von Audio- und Videoinhalten. Sie bietet eine Reihe von Funktionen, darunter:

  • Automatische Transkription in mehrere Sprachen
  • Untertitelung in Echtzeit oder als separate Datei
  • Spracherkennung
  • Speaker-Recognition
  • Transkript-Editor

Beey.io* ist für Unternehmen und Privatpersonen verfügbar. Im Vergleich mit Whisper bietet Beey.io* zusätzliche Funktionen wie Untertitelung, Spracherkennung und Speaker-Recognition.

Auch mit Beey.io* können Sie 30 Minuten kostenlos testen. Nachdem Sie ein Konto angelegt haben, können Siemit einer Demo Starten oder gleich loslegen. „Transkribieren“ auswählen und dann Datei hochladen oder URL eingeben und „Start“ anklicken.

Ergebnis:

Hier das Ergebnis von Beey.io*, wie zu erkennen, bereitet Groß-/Kleinschreibung und Zeichensetzung Beey.io* einige Probleme. Dies lässt sich aber anschließend im Textverarbeitungsprogramm mit der Rechtschreibfunktion aus dem Weg räumen. Im Editor können Sie die Eingabe abspielen und mit dem Text vergleichen. Es stehen mehrere Dateiformate zum Download bereit.

Preise:

Hier die Preise für Beey.io*, Sie bezahlen nach den 30 Freiminuten einfach nach Bedarf im Stundenpaket:

Nova A.I.

Nova A.I.* ist eigentlich darauf ausgelegt, Untertitel für Videos zu generieren, daher ist es für die KI-Transkription von Audiodateien nicht ganz so gut geeignet, aber es geht. Ich habe die mp3-Datei „Synthesys KI-Texte erkennen“ über die Auswahl „Audio“ hochgeladen, danach links „Subtitles“, dann „German (Germany)“ und „Auto Subtitles“ ausgewählt:

Ergebnis:

Danach beginnt die Verarbeitung mit folgendem Ergebnis, das sich über „Export“(rechts oben) in verschiedenen Qualitäten herunterladen lässt:

Das bisher beste Ergebnis, nur ein Fehler: AP ist (APIs) von KI Unternehmen. Das i-Tüpfelchen wären noch Doppelpunkte oder Gedankenstriche hinter den Überschriften, aber ansonsten ist das Ergebnis perfekt. In der Bezahlvariante lassen sich die Untertitel bei der Auswahl „Subtitles“ unter „Download Subtitles“ getrennt herunterladen. Bei der Auswahl „Subtitles“ lassen sich die generierten Texte auch editieren.

Preise:

Rev.ai

Rev* ist bekannt für sehr gute menschliche Transkripte und Untertitel und bietet jetzt auch maschinelle mit KI. Rev.ai* ist die globale Spracherkennung und in insgesamt 31 Sprachen verfügbar, darunter natürlich auch Deutsch.

Mit Rev.ai* lassen sich verschiedene Aufgaben erledigen, wie „Speech to Text“ oder das Wesentliche in einem Text erkennen. Dafür mit „Submit a Job“ die entsprechende Datei hochladen. Nach dem Transkribieren lässt sie sich alt txt- oder json-Datei herunterladen.

Hier das Ergebnis

„Speaker 1 00:00:00 Erkennung von KI generierten Texten allgemeine Verfahren Die Unterscheidung zwischen menschlich verfassten und kai generierten Texten ist entscheidend hier sind einige bewährte Verfahren Stil Analyse Kai Texte weisen oft einen konsistenten, aber ungewöhnlichen Stil auf Grammatik und Syntax, Fehler in Grammatik und Syntax können auf automatische Generierung hindeuten überwachtes Lernen Modelle können trainiert werden, um diese Unterscheidung zu treffen. In API Text Klassifikation spezialisierte NLP Modelle können für diese Aufgabe trainiert werden A ist von Kai Unternehmen spezialisierte Technologien stehen zur Verfügung, um Texte zu überprüfen. Menschliche überprüfung Erfahrene Autoren können subtile Unterschiede erkennen Die Kombination dieser Verfahren führt oft zu den besten Ergebnissen und sollte an aktuelle Entwicklungen angepasst werden.“

Das Ergebnis ist nicht so gut wie sonix.ai. Aus KI wird Kai, auch die Abtrennung der Überschriften fehlt. Und statt APIs produziert die KI „A ist von Kai“

Preise

Whisper – kostenlose KI-Transkription von OpenAI

Whisper ist ein automatisches Spracherkennungssystem (automatic speech recognition, ASR) von OpenAI, das die Entwickler mit 680.000 Stunden multilingualen und mehrsprachigen Daten aus dem Web trainierten. OpenAI veröffentlichte es im September 2022 und es ist unter einer Open-Source-Lizenz verfügbar.

Whisper ist ein wichtiger Schritt in der Entwicklung von ASR-Systemen. Das System ist robuster und genauer als frühere Systeme und eignet sich daher für eine breitere Palette von Anwendungen.

Die wichtigsten Merkmale von Whisper:

  • Großes und vielfältiges Trainingsdatensatz: Whisper wurde auf einem riesigen Datensatz aus dem Web trainiert. Dieser Datensatz enthält Sprache aus einer Vielzahl von Quellen, darunter Videos, Audioaufnahmen und Text.
  • Fähigkeit zur Erkennung von Sprache in einer Vielzahl von Umgebungen: Whisper ist in der Lage, Sprache in einer Vielzahl von Umgebungen zu erkennen, einschließlich Umgebungen mit Hintergrundgeräuschen, Akzenten und technischem Vokabular.
  • Hohe Genauigkeit: Das System erreicht laut OpenAI eine Genauigkeit von 92 % auf Englisch und von 85 % in anderen Sprachen..

Whisper ist ein vielversprechendes ASR-System mit der Möglichkeit, die Interaktion zwischen Menschen und Computern zu verändern. Das System hat das Potenzial, in einer Vielzahl von Anwendungen eingesetzt zu werden, darunter Sprachassistenten, Sprachübersetzungen und Spracherkennung in der Medizin.

Beispiele für mögliche Anwendungen von Whisper:

  • Sprachassistenten: Whisper könnte in Sprachassistenten wie Siri oder Alexa verwendet werden, um die Genauigkeit und Robustheit dieser Systeme zu verbessern.
  • Sprachübersetzungen: Whisper lässt sich in Sprachübersetzungssystemen verwenden, um die Genauigkeit und Geschwindigkeit der Übersetzungen zu verbessern.
  • Spracherkennung in der Medizin: Whisper könnte in medizinischen Anwendungen wie der Spracherkennung bei der Diagnose von Krankheiten verwendet werden.

Whisper ist noch in der Entwicklung, aber es hat das Potenzial, einen großen Einfluss auf die Art und Weise, wie wir mit Computern interagieren, zu haben.

Installation von Whisper – verlangt etwas IT-Kenntnis

Das kostenlose Whisper ist nicht so benutzerfreundlich wie die kostenpflichtigen KI-Transkriptions-Tools. Mit dem nachfolgenden Verfahren brauchen Sie die Software nicht auf Ihrem Rechner installieren, Sie nutzen es über Google Drive und Colaboratory, dafür brauchen Sie ein Google-Konto. Hier eine Anleitung:

Zunächst in Google Drive „Anmelden“ oder „Drive öffnen“ wählen. Links oben „Neu“ auswählen und im Dropdown-Menü zunächst „Mehr“ und anschließend „Weitere Apps Verknüpfen“ anklicken.

Danach „Colaboratory“ suchen und für die Installation auswählen. Eventuell müssen Sie die Installation übers Google-Konto genehmigen.

Im Anschluss finden Sie die App unter „Neu“ und „Mehr“ und können Sie durch Anklicken nutzen:

Standardmäßig erscheint „Untitled0.ipynb“ oder „Untitled1.ipynb“ als Projektname. Ändern Sie „Untitled1“ z.B. in „KI-Transkription“ und installieren Sie Whisper.

Bevor Sie Whisper installieren, ist eine Anpassung der Laufzeit angebracht, um die Hardware zu beschleunigen. Wählen Sie „Laufzeit“, „Laufzeittyp ändern“ und beziehen Sie Ihre Grafikkarte „T4 GPU“ mit ein, danach speichern.

Für die Installation geben Sie folgenden Befehl ein und drücken Sie die Pfeiltaste, danach wird Whisper mit allen dazugehörigen Dateien installiert:

Das dauert eine Weile, bei mir erschien allerdings folgende Fehlermeldung. Da ich nicht weiß, welche Auswirkungen das hat, mache ich einfach einmal weiter.

Whisper nutzen

Zunächst links auf das Ordner-Symbol klicken und mit „Drag & Drop“ die gewünschte Datei in den Ordner-Bereich ziehen. Damit wird die Datei hochgeladen. Anschließend „+Code“ auswählen. Allerdings erfolgte die KI-Transkription nicht sofort richtig, sondern lief auf Fehler. Der Dateiname muss richtig sein, sprich auch Groß/Kleinschreibung beachten. Dafür ist das Ergebnis mehr als beachtlich.

Ergebnis:

Hier das Ergebnis von Whisper.

Das Ergebnis lässt sich als txt-Datei herunterladen.

„Erkennung von KI-generierten Texten – Allgemeine Verfahren
Die Unterscheidung zwischen menschlich verfassten und KI-generierten Texten ist entscheidend.
Hier sind einige bewährte Verfahren.
Stilanalyse – KI-Texte weisen oft einen konsistenten, aber ungewöhnlichen Stil auf.
Grammatik und Syntax – Fehler in Grammatik und Syntax können auf automatische Generierung hindeuten.
Überwachtes Lernen – Modelle können trainiert werden, um diese Unterscheidung zu treffen.
NLP-Textklassifikation – Spezialisierte NLP-Modelle können für diese Aufgabe trainiert werden.
API ist (APIs) von KI-Unternehmen.
Spezialisierte Technologien stehen zur Verfügung, um Texte zu überprüfen.
Menschliche Überprüfung – Erfahrene Autoren können subtile Unterschiede erkennen.
Die Kombination dieser Verfahren führt oft zu den besten Ergebnissen und sollte an aktuelle Entwicklungen angepasst werden.“

Die txt-Datei enthält wie bei Nova A.I.*. nur einen Fehler und es enthält tatsächlich das i-Tüpfelchen: Die Überschrift wird vom nachfolgenden Text durch „–“ abgetrennt. Wow!

Fazit

Um es vorweg zu sagen, am besten schnitt bei diesem Test das kostenlose Whisper ab. Wer also IT-technisch begabt ist und Audio in Text umwandeln will, sollte dieses Tool von OpenAI nutzen. IT-Nerds können es auch auf ihrem eigenen Rechner installieren. Als nächstes überzeugte mich Nova A.I.*, obwohl es für die Untertitelung von Videos konzipiert ist. Aber auch Sonix.ai* und Beey.io* lieferten gute Resultate.