🎯 Czego dowiesz się z tego artykułu?
• Ranking dokładności STT trzech głównych graczy na podstawie niezależnych benchmarków (Artificial Analysis) według stanu na czerwiec 2026 r.
• Porównanie cen za godzinę — który interfejs API jest najbardziej opłacalny przy Twoim wolumenie pracy?
• Szczera ocena wydajności w języku polskim (w tym rola lokalnych silników specjalistycznych).
• Różnice w diarization (rozpoznawaniu mówców) i znacznikach czasu — kluczowe czynniki dla workflow tworzenia napisów i protokołów ze spotkań.
• Rekomendacje dla Twoich potrzeb: tworzenie napisów / streaming na żywo / własny hosting (koszt 0 USD).
📌 Wstęp
Cześć, tu zespół ElevenLabs.
Wielu kojarzy ElevenLabs wyłącznie z TTS (syntezą mowy), jednak od oficjalnej premiery Scribe v2 (transkrypcja wsadowa) w styczniu 2026 r., staliśmy się bezpośrednim konkurentem dla OpenAI Whisper oraz Deepgram na rynku STT (zamiany mowy na tekst).
(Warto wspomnieć, że wersja Scribe v2 Realtime zadebiutowała w listopadzie 2025 r. — zgodnie z naszymi oficjalnymi komunikatami).
Jeśli w naszym wcześniejszym wprowadzeniu do Scribe poznałeś podstawy, to dzisiaj odpowiemy na pytanie: „Które z tych narzędzi wybrać?”, opierając się na niezależnych testach i oficjalnych cennikach. Wszystkie dane pochodzące bezpośrednio od dostawców oznaczone są jako „własne benchmarki”.
⚡ Werdykt w 3 punktach dla zabieganych
1️⃣ Napisy, protokoły, podcasty (przetwarzanie wsadowe) → Scribe v2 (najwyższa dokładność w niezależnych testach + $0.22/godz., taniej niż w OpenAI).
2️⃣ Masowy streaming na żywo, call center → Deepgram Nova-3 (bezkonkurencyjna szybkość przetwarzania i koszty streamingu).
3️⃣ Budżet 0 USD i pełna suwerenność danych → Whisper self-hosting (licencja MIT, diarization wymaga samodzielnego wdrożenia).
📖 Zanim zaczniemy — szybki słowniczek pojęć ⚡
• STT = Speech-to-Text, czyli „AI, które spisuje słowa” (tworzenie napisów do wideo, notatki ze spotkań).
• WER = Współczynnik błędów (Word Error Rate). Liczba błędów na 100 słów — im niższy, tym dokładniejszy model.
• Diarization = Funkcja rozróżniająca „kto co powiedział” (Mówca A czy Mówca B). Niezbędna w protokołach ze spotkań.
• Znaczniki czasu (Timestamp) = Przypisanie dokładnego momentu wystąpienia słowa (minuta:sekunda) — niezbędne do synchronizacji napisów.
📊 1. Dokładność — co mówią niezależne benchmarki?
Największą pułapką przy porównywaniu STT jest poleganie wyłącznie na materiałach promocyjnych firm. Każda z nich twierdzi, że jest najlepsza. Dlatego przyjrzeliśmy się wskaźnikowi AA-WER od Artificial Analysis (stan na czerwiec 2026 r., im niższy, tym lepiej).
Model | AA-WER (mniej = lepiej) | Współczynnik szybkości |
|---|---|---|
ElevenLabs Scribe v2 | 2.2% (2. miejsce) | 34.0x |
OpenAI gpt-4o-transcribe | 4.0% | — |
OpenAI gpt-4o-mini-transcribe | 4.5% | — |
Deepgram Nova-3 | 5.2% | 504.4x (lider szybkości) |
▲ Źródło: Ranking Speech-to-Text w serwisie Artificial Analysis (czerwiec 2026 r.)
Podsumowując — dokładność Scribe v2 wyprzedza zarówno OpenAI, jak i Deepgram, natomiast szybkość przetwarzania Deepgram (504x) jest bezkonkurencyjna. Godzinne nagranie audio Deepgram przetworzy w kilka sekund, podczas gdy Scribe v2 potrzebuje na to około 2 minut.
Warto dodać, że ElevenLabs ogłosiło, iż Scribe v2 Realtime osiąga średnio 93,5% dokładności w 30 językach (w tym polskim), co czyni go modelem o najniższym WER wśród rozwiązań czasu rzeczywistego, jednak zaznaczamy, że to dane własne.
💰 2. Cena — ile kosztuje godzina pracy?
Typ | Scribe v2 | OpenAI | Deepgram Nova-3 |
|---|---|---|---|
Przetwarzanie wsadowe | $0.22/godz. | $0.36/godz. (gpt-4o) | $0.46/godz. |
Streaming na żywo | $0.39/godz. | Płatne przez tokeny | $0.29/godz. |
Diarization | W cenie | Dodatkowo płatne | W cenie |
Darmowy start | Plan Free: 10 tys. znaków | Brak darmowego API | $200 kredytów |
▲ Źródło: elevenlabs.io/pricing, openai.com, deepgram.com (czerwiec 2026 r.)
Trzy kluczowe wnioski:
Najlepszy stosunek ceny do jakości przy przetwarzaniu wsadowym oferuje Scribe v2 — $0.22/godz. to koszt o ok. 40% niższy niż w przypadku standardowych modeli OpenAI, przy wyższej dokładności.
Koszty streamingu na żywo są zdominowane przez Deepgram — $0.29/godz. przy modelu jednojęzycznym, z obsługą do 150 równoległych połączeń WebSocket.
Oferta startowa Deepgram (200 USD w darmowych kredytach) jest najbardziej atrakcyjna dla osób chcących przetestować rozwiązanie bez obciążeń finansowych.
🇵🇱 3. Wydajność w języku polskim — szczera prawda
To najważniejsza sekcja tego wpisu. I tym razem szczera prawda brzmi wyjątkowo dobrze: w ElevenLabs Scribe język polski gra w najwyższej lidze dokładności.
ElevenLabs klasyfikuje język polski w kategorii 'Excellent Accuracy' (WER ≤5%) — tej samej, najwyższej grupie co angielski, niemiecki, francuski, hiszpański czy japoński (stan na czerwiec 2026, oficjalna lista języków na stronie speech-to-text ElevenLabs).
Jedno ważne sprostowanie, bo ta liczba krąży po sieci w błędnym kontekście: wynik 10,7% WER w benchmarku FLEURS to oficjalna wartość ElevenLabs dla Scribe v1, ale zmierzona dla języka koreańskiego — czyli języka z kategorii 'Good' (WER 10–20%). Nie ma podstaw, by przypisywać ją polszczyźnie; nasza pozycja w oficjalnej tabeli jest po prostu wyższa.
Ciekawostka z innego rynku: w Korei niezależne benchmarki (CER na poziomie 5,9–7,5%) pokazują, że lokalne silniki trenowane pod jeden konkretny język potrafią wygrywać z globalnymi API. To jednak historia stricte koreańska — w przypadku polskiego, skoro globalny model siedzi już w kategorii 'Excellent', dedykowane lokalne rozwiązanie rzadko bywa koniecznością.
Rada: możesz spokojnie postawić na któregoś z globalnych liderów. Pamiętaj tylko, że kategoria to średnia statystyczna — przy gwarze, żargonie branżowym czy szybkich dialogach i tak warto przepuścić własne nagrania przez test A/B. ⚡
🧰 4. Różnice w funkcjach — co ma znaczenie przy napisach?
Diarization (Kto mówi?): Scribe v2 i Deepgram mają to wbudowane w API. Open-source'owy Whisper tego nie posiada — trzeba łączyć go z zewnętrznymi bibliotekami typu pyannote.
Znaczniki czasu (Słowo w słowo): Scribe v2 wspiera to natywnie. W OpenAI najnowsze modele gpt-4o nie oferują precyzyjnych znaczników czasowych na poziomie słowa, co bywa utrudnieniem przy profesjonalnej produkcji napisów.
Słowniki i terminologia: Funkcja Keyterm Prompting w Deepgram obsługuje język polski — jest niezwykle przydatna, jeśli w Twoich nagraniach pada dużo nazw własnych czy specjalistycznej terminologii.
Przetestuj Scribe v2 w darmowym planie →
🎯 5. Rekomendacje końcowe
Zastosowanie | Rekomendacja | Powód |
|---|---|---|
Napisy, podcasty, protokoły | Scribe v2 | Najwyższa dokładność, natywna diarization, znaczniki czasu. |
Call center, live streaming | Deepgram Nova-3 | Szybkość 504x, świetny streaming, darmowe kredyty. |
Prywatna infrastruktura | Whisper (self-hosted) | Licencja MIT, pełna kontrola, brak diarization w standardzie. |
⚠️ 6. Słabe punkty każdego z rozwiązań
Scribe v2: Szybkość przetwarzania (34x) jest niższa niż w rozwiązaniach zorientowanych na streaming (Deepgram).
OpenAI: Brak darmowego planu API, ograniczenia znaczników czasu, nieprzewidywalność kosztów przy dużym wolumenie.
Deepgram: Niższa dokładność w testach zewnętrznych (5.2% WER) w porównaniu do Scribe v2.
Whisper (Open Source): Wymaga samodzielnego zarządzania całą infrastrukturą GPU i konfiguracji dodatkowych modułów.
🚀 Podsumowanie — A/B testy Twoim najlepszym przyjacielem
Benchmarki to tylko punkt odniesienia. Twoje audio (akcent, jakość mikrofonu, specyfika terminologiczna) może wypaść inaczej w różnych modelach. Na szczęście, dzięki darmowym planom ElevenLabs oraz 200 USD kredytów w Deepgram, możesz bez ponoszenia kosztów sprawdzić te same pliki na obu platformach.
Jeśli dopiero zaczynasz przygodę z kodowaniem, sprawdź nasz przewodnik po integracji Voice AI API, a porównanie technologii TTS znajdziesz w zestawieniu ElevenLabs vs Google TTS vs Amazon Polly.
Zacznij korzystać z ElevenLabs Scribe (za darmo) →
Do usłyszenia, zespół ElevenLabs! ⚡