[STT-Vergleich 2026] ElevenLabs Scribe vs. Whisper vs. Deepgram im Test

Welche STT-KI ist die beste? Wir haben ElevenLabs Scribe v2, OpenAI Whisper (GPT-4o Transcribe) und Deepgram Nova-3 für Juni 2026 unabhängig analysiert. Basierend auf Benchmarks und offiziellen Preisen vergleichen wir Genauigkeit, Kosten, Performance bei der Spracherkennung und Sprechersegmentierung (Diarization). Von der Anwendung im DAX-Unternehmen bis zur privaten Nutzung via WhatsApp – wir zeigen den Sieger für jeden Bedarf und beleuchten ehrlich die Grenzen der KI-Spracherkennung.

🎯 Was Du in diesem Artikel lernst

• Die echten STT-Genauigkeitsrankings der Top-3-Anbieter laut unabhängigen Benchmarks (Artificial Analysis, Stand: Juni 2026)
• Kostenvergleich pro Stunde — Welche API ist bei welchem Datenvolumen am effizientesten?
Die Realität der deutschen Spracherkennung (Umlaute, Komposita und Dialekte)
• Sprechererkennung (Diarization) & Wort-Zeitstempel — Die entscheidenden Unterschiede für Untertitel und Meeting-Protokolle
• Konkrete Empfehlungen nach Anwendungsfall: Untertitel-Erstellung vs. Echtzeit-Streaming vs. Self-Hosting

 

📌 Einleitung

Hallo und herzlich willkommen im ElevenLabs Lab!

Viele verbinden ElevenLabs sofort mit TTS (Text-to-Speech) auf absolutem Highend-Niveau. Doch seit dem offiziellen Release von Scribe v2 (für die Batch-Transkription) im Januar 2026 mischt ElevenLabs auch den STT-Markt (Speech-to-Text) auf und tritt in direkten Wettbewerb mit Branchengrößen wie OpenAI Whisper und Deepgram. (Die Echtzeit-Version Scribe v2 Realtime wurde bereits im November 2025 veröffentlicht.)

 

Nachdem wir in unserem Einführungsartikel zu Scribe die theoretischen Grundlagen geklärt haben, beantworten wir heute die entscheidende Praxisfrage: „Welches Tool eignet sich am besten für mein Projekt?“ Wir stützen uns dabei auf unabhängige Benchmarks und die offiziellen Preispläne. (Interne Herstellerangaben sind im Text explizit als solche gekennzeichnet.)

 

⚡ Für Eilige: Die Zusammenfassung in Kürze

1️⃣ Batch-Transkription (Untertitel, Protokolle, Podcasts)Scribe v2 (Höchste Genauigkeit laut unabhängigen Benchmarks + mit 0,22 $/Std. günstiger als OpenAI)
2️⃣ Echtzeit-Streaming (Große Volumina, Callcenter, Live-Untertitel)Deepgram Nova-3 (Führend bei Verarbeitungsgeschwindigkeit, Streaming-Preisen und parallelen Verbindungen)
3️⃣ Volle Datenkontrolle & 0 € KostenWhisper Self-Hosting (Kostenfreie MIT-Lizenz, erfordert jedoch eine eigene Implementierung der Sprechererkennung)

 

 

📖 Vorab — Die 4 wichtigsten Begriffe kurz erklärt ⚡

STT = Speech-to-Text: Die automatische Spracherkennung, die Audio in geschriebenen Text umwandelt (z. B. für Untertitel).
WER = Word Error Rate (Wortfehlerrate): Gibt an, wie viele Fehler auf 100 Wörter entfallen. Je niedriger, desto präziser!
Sprechererkennung (Diarization) = Identifiziert automatisch, wer was gesagt hat („Sprecher A“, „Sprecher B“). Entscheidend für Meeting-Protokolle.
Wort-Zeitstempel (Word-level Timestamps) = Ordnet jedem einzelnen Wort den genauen Zeitpunkt im Audio zu – unverzichtbar für synchrone Untertitel.

 

📊 1. Genauigkeit — Was unabhängige Benchmarks zeigen

Die größte Falle beim STT-Vergleich besteht darin, sich blind auf Werbeversprechen zu verlassen. Deshalb werfen wir einen Blick auf den unabhängigen AA-WER-Index von Artificial Analysis (Stand: Juni 2026; je niedriger der Wert, desto präziser das Ergebnis).

 

Modell

AA-WER (Niedriger = Besser)

Geschwindigkeitsfaktor

ElevenLabs Scribe v2

2,2 % (Platz 2 insgesamt)

34,0x

OpenAI gpt-4o-transcribe

4,0 %

OpenAI gpt-4o-mini-transcribe

4,5 %

Deepgram Nova-3

5,2 %

504,4x (Spitzenreiter)

▲ Quelle: Artificial Analysis Speech-to-Text Leaderboard (Stand: Juni 2026)

 

Das Fazit ist eindeutig: In puncto Genauigkeit schlägt Scribe v2 sowohl OpenAI als auch Deepgram. Bei der Verarbeitungsgeschwindigkeit hingegen spielt Deepgram mit einem Faktor von 504x in einer eigenen Liga.
In der Praxis bedeutet das: Während Deepgram eine Stunde Audiomaterial in Sekunden transkribiert, benötigt Scribe v2 dafür etwa 2 Minuten.

Hinweis: ElevenLabs gibt für Scribe v2 Realtime eine durchschnittliche Genauigkeit von 93,5 % für 30 Sprachen an. Da es sich hierbei um einen herstellereigenen Benchmark handelt, sollte dieser mit der entsprechenden Vorsicht betrachtet werden.

 

💰 2. Kostenvergleich — Auf die Stunde heruntergebrochen

Kategorie

Scribe v2

OpenAI

Deepgram Nova-3

Batch-Transkription

0,22 $ / Std.

0,36 $ / Std. (gpt-4o)
0,18 $ / Std. (mini)

0,46 $ / Std. (Einzelsprache)

Echtzeit-Streaming

0,39 $ / Std.

Token-basiert (teurer)

0,29 $ / Std.

Sprechererkennung

Inklusive

Diarize-Modell: 0,36 $ / Std.

Inklusive

Kostenloser Einstieg

Free-Tarif: 10.000 Credits

Keine Freiminuten

200 $ Guthaben

▲ Quelle: elevenlabs.io · OpenAI Developer Docs · deepgram.com (Stand: Juni 2026)

 

Drei Erkenntnisse aus der Preistabelle:

  • Unschlagbares Preis-Leistungs-Verhältnis: Scribe v2 bietet für Batch-Verfahren mit 0,22 $/Std. eine kosteneffiziente Lösung, die bei höherer Genauigkeit etwa 40 % günstiger ist als gpt-4o.

  • Deepgram dominiert Echtzeit-Streaming: Mit 0,29 $/Std. (für eine Einzelsprache), sekundengenauer Abrechnung und bis zu 150 parallelen WebSocket-Verbindungen ist es der Favorit für Live-Anwendungen.

  • Großzügiges Startguthaben: Deepgram gewährt 200 $ Startguthaben, was etwa 433 Stunden Transkriptionszeit mit dem Nova-3-Modell entspricht – ideal zum risikofreien Testen.

 

🇩🇪 3. Deutsche Spracherkennung & Dialekte — Die Realität

Deutsch gehört für moderne KI-Modelle zu den am besten unterstützten Sprachen — und das ist diesmal kein Marketing, sondern offiziell dokumentiert.

 

ElevenLabs führt Deutsch auf seiner offiziellen Speech-to-Text-Sprachliste in der höchsten Kategorie 'Excellent Accuracy' (WER ≤ 5 %) — Seite an Seite mit Englisch, Französisch, Italienisch, Spanisch und Polnisch. Zur Einordnung: Sprachen wie Hindi oder Mandarin liegen eine Stufe darunter in 'High Accuracy' (WER 5–10 %), Koreanisch derzeit in 'Good' (WER 10–20 %).

⚡ Ein Wort zu kursierenden Benchmark-Zahlen: Der oft zitierte Wert von 10,7 % WER (Scribe v1, FLEURS-Benchmark) stammt aus ElevenLabs' eigener Veröffentlichung und bezieht sich auf Koreanisch — auf Deutsch lässt er sich also nicht übertragen.

Dennoch gibt es sprachliche Stolpersteine:

  • Umlaute und Eszett (ä/ö/ü/ß): Führen bei minderwertigen Modellen gelegentlich zu Fehlern.

  • Zahleninversion: Die deutsche Zählweise („einundzwanzig“) stellt für einige Engines eine Herausforderung dar, wenn sie in Ziffern transkribiert werden soll.

  • Komposita: Deutsche Wortungetüme wie Krankenversicherungsgesellschaft werden von globalen Modellen manchmal fälschlicherweise in Einzelwörter zerlegt.

  • Regionale Dialekte: Wer ausgeprägtes Bairisch, Plattdeutsch oder Schwyzerdütsch verarbeiten muss, stößt bei globalen APIs oft an Grenzen und benötigt gegebenenfalls hochspezialisierte Engines.

Unser Rat: Für Standard-Hochdeutsch liefern ElevenLabs Scribe v2 und Whisper large-v3 hervorragende, produktionsreife Ergebnisse. Bei stark dialektlastigem Content (z. B. lokaler Rundfunk) empfehlen wir, die Leistung vorab gründlich zu evaluieren.

 

🧰 4. Feature-Vergleich — Stolperfallen

  • Sprechererkennung: Bei Scribe v2 und Deepgram nativ integriert. Bei Whisper ist ein manuelles Einbinden von Bibliotheken (z. B. pyannote) nötig. OpenAI unterstützt Diarization im gpt-4o-transcribe-Modell ohne Aufpreis.

  • Wort-Zeitstempel: Werden von Scribe v2 nativ unterstützt. Bei OpenAI fehlen diese in den aktuellen gpt-4o-transcribe-Modellen, was für die Untertitel-Generierung (SRT/VTT) kritisch sein kann.

  • Vokabular-Anpassung: Deepgram bietet exzellente Möglichkeiten für Keyterm-Prompting, um Fachbegriffe oder Markennamen präziser zu erfassen.

 

Scribe v2 im kostenlosen Tarif testen →

 

🎯 5. Empfehlungen nach Anwendungsfall

Anwendungsfall

Empfehlung

Vorteile

Untertitel, Podcasts, Protokolle

Scribe v2

Höchste Genauigkeit, native Diarization, Wort-Zeitstempel, günstig.

Live-Untertitel, Callcenter

Deepgram Nova-3

Extreme Geschwindigkeit, günstige Echtzeit-API, 200 $ Guthaben.

0 € Budget, geschlossene Netzwerke

Whisper Self-Hosting

Kostenlos (MIT-Lizenz), volle Datenhoheit.

 

⚠️ 6. Schwachstellen der Systeme

  • Scribe v2: Die Verarbeitungsgeschwindigkeit (34x) liegt unter der von Deepgram. Die Credit-Berechnung im kostenlosen Tarif sollte vorab mit Testdateien geprüft werden.

  • OpenAI API: Keine echte kostenlose Testphase. Fehlende Wort-Zeitstempel bei aktuellen Modellen erschweren die Untertitel-Erstellung.

  • Deepgram: Die Genauigkeit im Benchmark (5,2 %) liegt leicht hinter der Konkurrenz. Nova-3 ist noch relativ neu im deutschen Markt.

  • Whisper (Open Source): Seit large-v3-turbo (Okt. 2024) gab es keine großen Updates. Wartung und Infrastruktur liegen komplett in deiner Hand.

 

🚀 Fazit — Die Wahl liegt bei Deinem Anwendungsfall

Benchmarks sind Orientierungspunkte, aber die ultimative Wahrheit liegt in Deinen eigenen Daten. Dank des kostenlosen Tarifs von ElevenLabs und des Deepgram-Guthabens kannst Du beide Dienste unkompliziert vergleichen.

Für die Implementierung schau in unseren Guide zur Voice-AI-Integration. Für TTS-Vergleiche empfehlen wir zudem unseren Artikel ElevenLabs vs. Google TTS vs. Amazon Polly.

 

Jetzt kostenlos mit ElevenLabs Scribe starten →

 

Dein Team vom ElevenLabs Lab