[STT-Vergleich 2026] ElevenLabs Scribe vs. Whisper vs. Deepgram im Test

🎯 Was Du in diesem Artikel lernst

• Die echten STT-Genauigkeitsrankings der Top-3-Anbieter laut unabhängigen Benchmarks (Artificial Analysis, Stand: Juni 2026)
• Kostenvergleich pro Stunde — Welche API ist bei welchem Datenvolumen am effizientesten?
• Die Realität der deutschen Spracherkennung (Umlaute, Komposita und Dialekte)
• Sprechererkennung (Diarization) & Wort-Zeitstempel — Die entscheidenden Unterschiede für Untertitel und Meeting-Protokolle
• Konkrete Empfehlungen nach Anwendungsfall: Untertitel-Erstellung vs. Echtzeit-Streaming vs. Self-Hosting

📌 Einleitung

Hallo und herzlich willkommen im ElevenLabs Lab!

Viele verbinden ElevenLabs sofort mit TTS (Text-to-Speech) auf absolutem Highend-Niveau. Doch seit dem offiziellen Release von Scribe v2 (für die Batch-Transkription) im Januar 2026 mischt ElevenLabs auch den STT-Markt (Speech-to-Text) auf und tritt in direkten Wettbewerb mit Branchengrößen wie OpenAI Whisper und Deepgram. (Die Echtzeit-Version Scribe v2 Realtime wurde bereits im November 2025 veröffentlicht.)

Nachdem wir in unserem Einführungsartikel zu Scribe die theoretischen Grundlagen geklärt haben, beantworten wir heute die entscheidende Praxisfrage: „Welches Tool eignet sich am besten für mein Projekt?“ Wir stützen uns dabei auf unabhängige Benchmarks und die offiziellen Preispläne. (Interne Herstellerangaben sind im Text explizit als solche gekennzeichnet.)

⚡ Für Eilige: Die Zusammenfassung in Kürze

1️⃣ Batch-Transkription (Untertitel, Protokolle, Podcasts) → Scribe v2 (Höchste Genauigkeit laut unabhängigen Benchmarks + mit 0,22 $/Std. günstiger als OpenAI)
2️⃣ Echtzeit-Streaming (Große Volumina, Callcenter, Live-Untertitel) → Deepgram Nova-3 (Führend bei Verarbeitungsgeschwindigkeit, Streaming-Preisen und parallelen Verbindungen)
3️⃣ Volle Datenkontrolle & 0 € Kosten → Whisper Self-Hosting (Kostenfreie MIT-Lizenz, erfordert jedoch eine eigene Implementierung der Sprechererkennung)

📖 Vorab — Die 4 wichtigsten Begriffe kurz erklärt ⚡
• STT = Speech-to-Text: Die automatische Spracherkennung, die Audio in geschriebenen Text umwandelt (z. B. für Untertitel).
• WER = Word Error Rate (Wortfehlerrate): Gibt an, wie viele Fehler auf 100 Wörter entfallen. Je niedriger, desto präziser!
• Sprechererkennung (Diarization) = Identifiziert automatisch, wer was gesagt hat („Sprecher A“, „Sprecher B“). Entscheidend für Meeting-Protokolle.
• Wort-Zeitstempel (Word-level Timestamps) = Ordnet jedem einzelnen Wort den genauen Zeitpunkt im Audio zu – unverzichtbar für synchrone Untertitel.

📊 1. Genauigkeit — Was unabhängige Benchmarks zeigen

Die größte Falle beim STT-Vergleich besteht darin, sich blind auf Werbeversprechen zu verlassen. Deshalb werfen wir einen Blick auf den unabhängigen AA-WER-Index von Artificial Analysis (Stand: Juni 2026; je niedriger der Wert, desto präziser das Ergebnis).

Modell	AA-WER (Niedriger = Besser)	Geschwindigkeitsfaktor
ElevenLabs Scribe v2	2,2 % (Platz 2 insgesamt)	34,0x
OpenAI gpt-4o-transcribe	4,0 %	—
OpenAI gpt-4o-mini-transcribe	4,5 %	—
Deepgram Nova-3	5,2 %	504,4x (Spitzenreiter)

▲ Quelle: Artificial Analysis Speech-to-Text Leaderboard (Stand: Juni 2026)

Das Fazit ist eindeutig: In puncto Genauigkeit schlägt Scribe v2 sowohl OpenAI als auch Deepgram. Bei der Verarbeitungsgeschwindigkeit hingegen spielt Deepgram mit einem Faktor von 504x in einer eigenen Liga.
In der Praxis bedeutet das: Während Deepgram eine Stunde Audiomaterial in Sekunden transkribiert, benötigt Scribe v2 dafür etwa 2 Minuten.

Hinweis: ElevenLabs gibt für Scribe v2 Realtime eine durchschnittliche Genauigkeit von 93,5 % für 30 Sprachen an. Da es sich hierbei um einen herstellereigenen Benchmark handelt, sollte dieser mit der entsprechenden Vorsicht betrachtet werden.

💰 2. Kostenvergleich — Auf die Stunde heruntergebrochen

Kategorie	Scribe v2	OpenAI	Deepgram Nova-3
Batch-Transkription	0,22 $ / Std.	0,36 $ / Std. (gpt-4o) 0,18 $ / Std. (mini)	0,46 $ / Std. (Einzelsprache)
Echtzeit-Streaming	0,39 $ / Std.	Token-basiert (teurer)	0,29 $ / Std.
Sprechererkennung	Inklusive	Diarize-Modell: 0,36 $ / Std.	Inklusive
Kostenloser Einstieg	Free-Tarif: 10.000 Credits	Keine Freiminuten	200 $ Guthaben

▲ Quelle: elevenlabs.io · OpenAI Developer Docs · deepgram.com (Stand: Juni 2026)

Drei Erkenntnisse aus der Preistabelle:

Unschlagbares Preis-Leistungs-Verhältnis: Scribe v2 bietet für Batch-Verfahren mit 0,22 $/Std. eine kosteneffiziente Lösung, die bei höherer Genauigkeit etwa 40 % günstiger ist als gpt-4o.
Deepgram dominiert Echtzeit-Streaming: Mit 0,29 $/Std. (für eine Einzelsprache), sekundengenauer Abrechnung und bis zu 150 parallelen WebSocket-Verbindungen ist es der Favorit für Live-Anwendungen.
Großzügiges Startguthaben: Deepgram gewährt 200 $ Startguthaben, was etwa 433 Stunden Transkriptionszeit mit dem Nova-3-Modell entspricht – ideal zum risikofreien Testen.

🇩🇪 3. Deutsche Spracherkennung & Dialekte — Die Realität

Deutsch gehört für moderne KI-Modelle zu den am besten unterstützten Sprachen — und das ist diesmal kein Marketing, sondern offiziell dokumentiert.

ElevenLabs führt Deutsch auf seiner offiziellen Speech-to-Text-Sprachliste in der höchsten Kategorie 'Excellent Accuracy' (WER ≤ 5 %) — Seite an Seite mit Englisch, Französisch, Italienisch, Spanisch und Polnisch. Zur Einordnung: Sprachen wie Hindi oder Mandarin liegen eine Stufe darunter in 'High Accuracy' (WER 5–10 %), Koreanisch derzeit in 'Good' (WER 10–20 %).

⚡ Ein Wort zu kursierenden Benchmark-Zahlen: Der oft zitierte Wert von 10,7 % WER (Scribe v1, FLEURS-Benchmark) stammt aus ElevenLabs' eigener Veröffentlichung und bezieht sich auf Koreanisch — auf Deutsch lässt er sich also nicht übertragen.

Dennoch gibt es sprachliche Stolpersteine:

Umlaute und Eszett (ä/ö/ü/ß): Führen bei minderwertigen Modellen gelegentlich zu Fehlern.
Zahleninversion: Die deutsche Zählweise („einundzwanzig“) stellt für einige Engines eine Herausforderung dar, wenn sie in Ziffern transkribiert werden soll.
Komposita: Deutsche Wortungetüme wie Krankenversicherungsgesellschaft werden von globalen Modellen manchmal fälschlicherweise in Einzelwörter zerlegt.
Regionale Dialekte: Wer ausgeprägtes Bairisch, Plattdeutsch oder Schwyzerdütsch verarbeiten muss, stößt bei globalen APIs oft an Grenzen und benötigt gegebenenfalls hochspezialisierte Engines.

Unser Rat: Für Standard-Hochdeutsch liefern ElevenLabs Scribe v2 und Whisper large-v3 hervorragende, produktionsreife Ergebnisse. Bei stark dialektlastigem Content (z. B. lokaler Rundfunk) empfehlen wir, die Leistung vorab gründlich zu evaluieren.

🧰 4. Feature-Vergleich — Stolperfallen

Sprechererkennung: Bei Scribe v2 und Deepgram nativ integriert. Bei Whisper ist ein manuelles Einbinden von Bibliotheken (z. B. pyannote) nötig. OpenAI unterstützt Diarization im gpt-4o-transcribe-Modell ohne Aufpreis.
Wort-Zeitstempel: Werden von Scribe v2 nativ unterstützt. Bei OpenAI fehlen diese in den aktuellen gpt-4o-transcribe-Modellen, was für die Untertitel-Generierung (SRT/VTT) kritisch sein kann.
Vokabular-Anpassung: Deepgram bietet exzellente Möglichkeiten für Keyterm-Prompting, um Fachbegriffe oder Markennamen präziser zu erfassen.

Scribe v2 im kostenlosen Tarif testen →

🎯 5. Empfehlungen nach Anwendungsfall

Anwendungsfall	Empfehlung	Vorteile
Untertitel, Podcasts, Protokolle	Scribe v2	Höchste Genauigkeit, native Diarization, Wort-Zeitstempel, günstig.
Live-Untertitel, Callcenter	Deepgram Nova-3	Extreme Geschwindigkeit, günstige Echtzeit-API, 200 $ Guthaben.
0 € Budget, geschlossene Netzwerke	Whisper Self-Hosting	Kostenlos (MIT-Lizenz), volle Datenhoheit.

⚠️ 6. Schwachstellen der Systeme

Scribe v2: Die Verarbeitungsgeschwindigkeit (34x) liegt unter der von Deepgram. Die Credit-Berechnung im kostenlosen Tarif sollte vorab mit Testdateien geprüft werden.
OpenAI API: Keine echte kostenlose Testphase. Fehlende Wort-Zeitstempel bei aktuellen Modellen erschweren die Untertitel-Erstellung.
Deepgram: Die Genauigkeit im Benchmark (5,2 %) liegt leicht hinter der Konkurrenz. Nova-3 ist noch relativ neu im deutschen Markt.
Whisper (Open Source): Seit large-v3-turbo (Okt. 2024) gab es keine großen Updates. Wartung und Infrastruktur liegen komplett in deiner Hand.

🚀 Fazit — Die Wahl liegt bei Deinem Anwendungsfall

Benchmarks sind Orientierungspunkte, aber die ultimative Wahrheit liegt in Deinen eigenen Daten. Dank des kostenlosen Tarifs von ElevenLabs und des Deepgram-Guthabens kannst Du beide Dienste unkompliziert vergleichen.

Für die Implementierung schau in unseren Guide zur Voice-AI-Integration. Für TTS-Vergleiche empfehlen wir zudem unseren Artikel ElevenLabs vs. Google TTS vs. Amazon Polly.

Jetzt kostenlos mit ElevenLabs Scribe starten →

Dein Team vom ElevenLabs Lab ⚡