🎯 Was Du in diesem Artikel lernst
• Die echten STT-Genauigkeitsrankings der Top-3-Anbieter laut unabhängigen Benchmarks (Artificial Analysis, Stand: Juni 2026)
• Kostenvergleich pro Stunde — Welche API ist bei welchem Datenvolumen am effizientesten?
• Die Realität der deutschen Spracherkennung (Umlaute, Komposita und Dialekte)
• Sprechererkennung (Diarization) & Wort-Zeitstempel — Die entscheidenden Unterschiede für Untertitel und Meeting-Protokolle
• Konkrete Empfehlungen nach Anwendungsfall: Untertitel-Erstellung vs. Echtzeit-Streaming vs. Self-Hosting
📌 Einleitung
Hallo und herzlich willkommen im ElevenLabs Lab!
Viele verbinden ElevenLabs sofort mit TTS (Text-to-Speech) auf absolutem Highend-Niveau. Doch seit dem offiziellen Release von Scribe v2 (für die Batch-Transkription) im Januar 2026 mischt ElevenLabs auch den STT-Markt (Speech-to-Text) auf und tritt in direkten Wettbewerb mit Branchengrößen wie OpenAI Whisper und Deepgram. (Die Echtzeit-Version Scribe v2 Realtime wurde bereits im November 2025 veröffentlicht.)
Nachdem wir in unserem Einführungsartikel zu Scribe die theoretischen Grundlagen geklärt haben, beantworten wir heute die entscheidende Praxisfrage: „Welches Tool eignet sich am besten für mein Projekt?“ Wir stützen uns dabei auf unabhängige Benchmarks und die offiziellen Preispläne. (Interne Herstellerangaben sind im Text explizit als solche gekennzeichnet.)
⚡ Für Eilige: Die Zusammenfassung in Kürze
1️⃣ Batch-Transkription (Untertitel, Protokolle, Podcasts) → Scribe v2 (Höchste Genauigkeit laut unabhängigen Benchmarks + mit 0,22 $/Std. günstiger als OpenAI)
2️⃣ Echtzeit-Streaming (Große Volumina, Callcenter, Live-Untertitel) → Deepgram Nova-3 (Führend bei Verarbeitungsgeschwindigkeit, Streaming-Preisen und parallelen Verbindungen)
3️⃣ Volle Datenkontrolle & 0 € Kosten → Whisper Self-Hosting (Kostenfreie MIT-Lizenz, erfordert jedoch eine eigene Implementierung der Sprechererkennung)
📖 Vorab — Die 4 wichtigsten Begriffe kurz erklärt ⚡
• STT = Speech-to-Text: Die automatische Spracherkennung, die Audio in geschriebenen Text umwandelt (z. B. für Untertitel).
• WER = Word Error Rate (Wortfehlerrate): Gibt an, wie viele Fehler auf 100 Wörter entfallen. Je niedriger, desto präziser!
• Sprechererkennung (Diarization) = Identifiziert automatisch, wer was gesagt hat („Sprecher A“, „Sprecher B“). Entscheidend für Meeting-Protokolle.
• Wort-Zeitstempel (Word-level Timestamps) = Ordnet jedem einzelnen Wort den genauen Zeitpunkt im Audio zu – unverzichtbar für synchrone Untertitel.
📊 1. Genauigkeit — Was unabhängige Benchmarks zeigen
Die größte Falle beim STT-Vergleich besteht darin, sich blind auf Werbeversprechen zu verlassen. Deshalb werfen wir einen Blick auf den unabhängigen AA-WER-Index von Artificial Analysis (Stand: Juni 2026; je niedriger der Wert, desto präziser das Ergebnis).
Modell | AA-WER (Niedriger = Besser) | Geschwindigkeitsfaktor |
|---|---|---|
ElevenLabs Scribe v2 | 2,2 % (Platz 2 insgesamt) | 34,0x |
OpenAI gpt-4o-transcribe | 4,0 % | — |
OpenAI gpt-4o-mini-transcribe | 4,5 % | — |
Deepgram Nova-3 | 5,2 % | 504,4x (Spitzenreiter) |
▲ Quelle: Artificial Analysis Speech-to-Text Leaderboard (Stand: Juni 2026)
Das Fazit ist eindeutig: In puncto Genauigkeit schlägt Scribe v2 sowohl OpenAI als auch Deepgram. Bei der Verarbeitungsgeschwindigkeit hingegen spielt Deepgram mit einem Faktor von 504x in einer eigenen Liga.
In der Praxis bedeutet das: Während Deepgram eine Stunde Audiomaterial in Sekunden transkribiert, benötigt Scribe v2 dafür etwa 2 Minuten.
Hinweis: ElevenLabs gibt für Scribe v2 Realtime eine durchschnittliche Genauigkeit von 93,5 % für 30 Sprachen an. Da es sich hierbei um einen herstellereigenen Benchmark handelt, sollte dieser mit der entsprechenden Vorsicht betrachtet werden.
💰 2. Kostenvergleich — Auf die Stunde heruntergebrochen
Kategorie | Scribe v2 | OpenAI | Deepgram Nova-3 |
|---|---|---|---|
Batch-Transkription | 0,22 $ / Std. | 0,36 $ / Std. (gpt-4o) | 0,46 $ / Std. (Einzelsprache) |
Echtzeit-Streaming | 0,39 $ / Std. | Token-basiert (teurer) | 0,29 $ / Std. |
Sprechererkennung | Inklusive | Diarize-Modell: 0,36 $ / Std. | Inklusive |
Kostenloser Einstieg | Free-Tarif: 10.000 Credits | Keine Freiminuten | 200 $ Guthaben |
▲ Quelle: elevenlabs.io · OpenAI Developer Docs · deepgram.com (Stand: Juni 2026)
Drei Erkenntnisse aus der Preistabelle:
Unschlagbares Preis-Leistungs-Verhältnis: Scribe v2 bietet für Batch-Verfahren mit 0,22 $/Std. eine kosteneffiziente Lösung, die bei höherer Genauigkeit etwa 40 % günstiger ist als gpt-4o.
Deepgram dominiert Echtzeit-Streaming: Mit 0,29 $/Std. (für eine Einzelsprache), sekundengenauer Abrechnung und bis zu 150 parallelen WebSocket-Verbindungen ist es der Favorit für Live-Anwendungen.
Großzügiges Startguthaben: Deepgram gewährt 200 $ Startguthaben, was etwa 433 Stunden Transkriptionszeit mit dem Nova-3-Modell entspricht – ideal zum risikofreien Testen.
🇩🇪 3. Deutsche Spracherkennung & Dialekte — Die Realität
Deutsch gehört für moderne KI-Modelle zu den am besten unterstützten Sprachen — und das ist diesmal kein Marketing, sondern offiziell dokumentiert.
ElevenLabs führt Deutsch auf seiner offiziellen Speech-to-Text-Sprachliste in der höchsten Kategorie 'Excellent Accuracy' (WER ≤ 5 %) — Seite an Seite mit Englisch, Französisch, Italienisch, Spanisch und Polnisch. Zur Einordnung: Sprachen wie Hindi oder Mandarin liegen eine Stufe darunter in 'High Accuracy' (WER 5–10 %), Koreanisch derzeit in 'Good' (WER 10–20 %).
⚡ Ein Wort zu kursierenden Benchmark-Zahlen: Der oft zitierte Wert von 10,7 % WER (Scribe v1, FLEURS-Benchmark) stammt aus ElevenLabs' eigener Veröffentlichung und bezieht sich auf Koreanisch — auf Deutsch lässt er sich also nicht übertragen.
Dennoch gibt es sprachliche Stolpersteine:
Umlaute und Eszett (ä/ö/ü/ß): Führen bei minderwertigen Modellen gelegentlich zu Fehlern.
Zahleninversion: Die deutsche Zählweise („einundzwanzig“) stellt für einige Engines eine Herausforderung dar, wenn sie in Ziffern transkribiert werden soll.
Komposita: Deutsche Wortungetüme wie Krankenversicherungsgesellschaft werden von globalen Modellen manchmal fälschlicherweise in Einzelwörter zerlegt.
Regionale Dialekte: Wer ausgeprägtes Bairisch, Plattdeutsch oder Schwyzerdütsch verarbeiten muss, stößt bei globalen APIs oft an Grenzen und benötigt gegebenenfalls hochspezialisierte Engines.
Unser Rat: Für Standard-Hochdeutsch liefern ElevenLabs Scribe v2 und Whisper large-v3 hervorragende, produktionsreife Ergebnisse. Bei stark dialektlastigem Content (z. B. lokaler Rundfunk) empfehlen wir, die Leistung vorab gründlich zu evaluieren.
🧰 4. Feature-Vergleich — Stolperfallen
Sprechererkennung: Bei Scribe v2 und Deepgram nativ integriert. Bei Whisper ist ein manuelles Einbinden von Bibliotheken (z. B. pyannote) nötig. OpenAI unterstützt Diarization im gpt-4o-transcribe-Modell ohne Aufpreis.
Wort-Zeitstempel: Werden von Scribe v2 nativ unterstützt. Bei OpenAI fehlen diese in den aktuellen gpt-4o-transcribe-Modellen, was für die Untertitel-Generierung (SRT/VTT) kritisch sein kann.
Vokabular-Anpassung: Deepgram bietet exzellente Möglichkeiten für Keyterm-Prompting, um Fachbegriffe oder Markennamen präziser zu erfassen.
Scribe v2 im kostenlosen Tarif testen →
🎯 5. Empfehlungen nach Anwendungsfall
Anwendungsfall | Empfehlung | Vorteile |
|---|---|---|
Untertitel, Podcasts, Protokolle | Scribe v2 | Höchste Genauigkeit, native Diarization, Wort-Zeitstempel, günstig. |
Live-Untertitel, Callcenter | Deepgram Nova-3 | Extreme Geschwindigkeit, günstige Echtzeit-API, 200 $ Guthaben. |
0 € Budget, geschlossene Netzwerke | Whisper Self-Hosting | Kostenlos (MIT-Lizenz), volle Datenhoheit. |
⚠️ 6. Schwachstellen der Systeme
Scribe v2: Die Verarbeitungsgeschwindigkeit (34x) liegt unter der von Deepgram. Die Credit-Berechnung im kostenlosen Tarif sollte vorab mit Testdateien geprüft werden.
OpenAI API: Keine echte kostenlose Testphase. Fehlende Wort-Zeitstempel bei aktuellen Modellen erschweren die Untertitel-Erstellung.
Deepgram: Die Genauigkeit im Benchmark (5,2 %) liegt leicht hinter der Konkurrenz. Nova-3 ist noch relativ neu im deutschen Markt.
Whisper (Open Source): Seit large-v3-turbo (Okt. 2024) gab es keine großen Updates. Wartung und Infrastruktur liegen komplett in deiner Hand.
🚀 Fazit — Die Wahl liegt bei Deinem Anwendungsfall
Benchmarks sind Orientierungspunkte, aber die ultimative Wahrheit liegt in Deinen eigenen Daten. Dank des kostenlosen Tarifs von ElevenLabs und des Deepgram-Guthabens kannst Du beide Dienste unkompliziert vergleichen.
Für die Implementierung schau in unseren Guide zur Voice-AI-Integration. Für TTS-Vergleiche empfehlen wir zudem unseren Artikel ElevenLabs vs. Google TTS vs. Amazon Polly.
Jetzt kostenlos mit ElevenLabs Scribe starten →
Dein Team vom ElevenLabs Lab ⚡