[2026 STT Analizi] En İyi Konuşma Tanıma Yapay Zekası: ElevenLabs vs Whisper vs Deepgram

🎯 Bu yazıda neler öğreneceksiniz?

• Haziran 2026 itibarıyla bağımsız karşılaştırmalı analiz (Artificial Analysis) verilerine göre STT (Konuşmadan Metne) alanında en iyi 3 servisin doğruluk sıralaması
• Saatlik maliyet karşılaştırması — Hangi iş yükü için hangi API daha hesaplı?
• Türkçe ses tanıma performansının dürüst bir değerlendirmesi (Yerel çözüm önerileri dahil)
• Konuşmacı ayrımı (diarization) ve kelime bazlı zaman damgaları — Altyazı ve toplantı tutanağı iş akışlarını etkileyen kritik farklar
• Kullanım amacına göre nihai tavsiyeler: Altyazı hazırlama / Canlı yayın / 0 TL maliyetle self-hosting

📌 Giriş

Merhaba, ElevenLabs Araştırma Laboratuvarı olarak karşınızdayız.

Pek çok kişi ElevenLabs denince akla sadece TTS (Ses Sentezleme) teknolojisini getiriyor, ancak Ocak 2026'da Scribe v2'nin (toplu transkripsiyon) resmi olarak piyasaya sürülmesiyle, ses tanıma (STT) pazarında OpenAI Whisper ve Deepgram ile doğrudan rekabet eden bir konuma geldik.
(Canlı işlemler için kullanılan Scribe v2 Realtime ise resmi blog duyurumuza göre Kasım 2025'te yayına alınmıştı.)

Daha önce Scribe tanıtım yazımızda temel kavramlara değinmiştik. Bugün ise "Peki, bu üçü arasından hangisini seçmeliyim?" sorusuna bağımsız testler ve resmi fiyat tabloları ışığında yanıt arayacağız. Şirketlerin kendi paylaştığı verileri, metin içerisinde "şirket içi benchmark" olarak ayrıca belirttik.

⚡ Vakit bulamayanlar için 3 maddelik özet

1️⃣ Altyazı, Toplantı Tutanağı, Podcast gibi toplu işlemler → Scribe v2 (Bağımsız benchmark verilerinde en yüksek doğruluk + saatlik $0,22 fiyat ile OpenAI'dan daha hesaplı)
2️⃣ Canlı yayınlar ve Çağrı Merkezleri → Deepgram Nova-3 (İşleme hızı, akış maliyeti ve eşzamanlı bağlantı avantajı)
3️⃣ 0 TL maliyet ve veri egemenliği → Whisper self-hosting (MIT lisansı; ancak konuşmacı ayrımı özelliğini kendiniz entegre etmelisiniz)

📖 Başlamadan önce 4 temel terimi netleştirelim ⚡
• STT = Speech-to-Text, yani konuşmayı yazıya döken "dikte AI"sı. (Toplantı tutanakları ve YouTube altyazıları bununla hazırlanır)
• WER = Hata oranı (Word Error Rate). 100 kelimede kaç kelime hata yapıldığını gösterir — ne kadar düşükse o kadar başarılıdır.
• Konuşmacı Ayrımı (Diarization) = "Bu cümleyi A kişisi, şunu B kişisi söyledi" ayrımını yapabilme özelliği. Özellikle toplantı tutanaklarında şarttır.
• Kelime Bazlı Zaman Damgası = Her kelimenin videonun tam olarak kaçıncı saniyesinde geçtiğini belirtir — altyazı senkronizasyonu için gereklidir.

📊 1. Doğruluk: Bağımsız testler ne diyor?

STT karşılaştırmalarında en büyük tuzak, sadece şirketlerin sunduğu verilerle karar vermektir. Hepsi kendini 1 numara ilan eder. Bu yüzden bağımsız bir üçüncü taraf olan Artificial Analysis'in AA-WER endeksini (Haziran 2026 itibarıyla, düşük olması daha iyidir) baz aldık.

Model	AA-WER (Düşük daha iyi)	Hız Katsayısı
ElevenLabs Scribe v2	%2,2 (Genel sıralama: 2)	34.0x
OpenAI gpt-4o-transcribe	%4,0	—
OpenAI gpt-4o-mini-transcribe	%4,5	—
Deepgram Nova-3	%5,2	504.4x (Açık ara 1.)

▲ Kaynak: Artificial Analysis Speech-to-Text Lider Tablosu (Haziran 2026 itibarıyla)

Özetle — Doğruluk konusunda Scribe v2; OpenAI ve Deepgram'ın önünde yer alıyor, ancak işleme hızında Deepgram 504 kat hızıyla bambaşka bir ligde. 1 saatlik bir ses kaydını Deepgram birkaç saniyede, Scribe v2 ise yaklaşık 2 dakika civarında işliyor.

Dipnot: ElevenLabs, Scribe v2 Realtime'ın "Avrupa ve Asya dillerinde ortalama %93,5 doğrulukla canlı modeller arasında en düşük WER değerine sahip olduğunu" duyurmuştu; ancak bu verinin şirket içi benchmark olduğunu göz önünde bulundurmalısınız.

💰 2. Maliyet: Saatlik bazda karşılaştırma

Kategori	Scribe v2	OpenAI	Deepgram Nova-3
Toplu Transkripsiyon	$0,22/saat	$0,36/saat (gpt-4o) $0,18/saat (mini)	$0,46/saat (tek dil)
Canlı Yayın	$0,39/saat	Realtime API jeton ücreti (ayrı/yüksek)	$0,29/saat
Konuşmacı Ayrımı	Dahili özellik	diarize modeli $0,36/saat	Dahili özellik
Ücretsiz Deneme	Ücretsiz planda ayda 10.000 kredi	API ücretsiz katmanı yok	$200 değerinde kredi (Kart gerektirmez)

▲ Kaynak: elevenlabs.io/pricing/api · developers.openai.com · deepgram.com/pricing (Haziran 2026)

Öne çıkan üç nokta:

Toplu işlemlerde fiyat/performans kralı Scribe v2 — $0,22/saat fiyatıyla gpt-4o-transcribe'ın ($0,36) yaklaşık %60'ı maliyetinde ve üstelik daha yüksek doğruluk sunuyor. Creator planı ($22/ay) zaten 100 saatlik toplu transkripsiyonu içeriyor.
Canlı yayın birim maliyetinde Deepgram — $0,29/saat (tek dil) ile saniyelik faturalandırma sunuyor ve PAYG modelinde 150 eşzamanlı WebSocket bağlantısına kadar destek veriyor.
Deepgram'ın $200'lık ücretsiz kredisi, Nova-3 bazında yaklaşık 433 saate tekabül ediyor ve bu servisler arasında en cömert teklif. Test süreçlerinde bütçe derdiniz kalmıyor.

🇹🇷 3. Türkçe Performansı: Şeffaf konuşalım

Bu yazıdaki en kritik bölüme geldik. Ve haber bu kez gerçekten iyi: Türkçe, ElevenLabs'in resmi dil desteği sınıflandırmasında en üst doğruluk kategorisinde yer alıyor.

ElevenLabs, resmi speech-to-text sayfasında Türkçeyi 'Excellent' (Mükemmel) seviyesinde (%5'in altında WER) listeliyor.
Yani Türkçe; İngilizce, Almanca, Fransızca, İspanyolca ve Japonca gibi dillerle birlikte 36 dilin bulunduğu en üst kategoride. (Haziran 2026 itibarıyla resmi sayfadan doğruladık.)

Burada şeffaf olmamız gereken bir nokta var: internette sık paylaşılan "Scribe v1, FLEURS benchmark'ında %10,7 WER" sayısı Türkçeye değil, Koreceye ait. ElevenLabs'in kendi açıkladığı bu ölçüm, 'Good' (%10-20 WER) kategorisindeki Korece için geçerli; Türkçenin resmi sınıflandırması ise %5'in altını işaret ediyor. Arada bir de 'High Accuracy' (%5-10 WER) basamağı var — Hintçe ve Mandarin Çincesi gibi diller orada bulunuyor.

Peki "yerel motor mu, küresel motor mu" tartışması? Bu tartışma asıl olarak 'Good' kategorisindeki diller için anlamlı. Örneğin Korecede yerel motorlarla yapılan bağımsız benchmark verileri (%5,9-7,5 CER) yerel uzmanlaşmanın fark yarattığını gösteriyor; ancak bu veriler tamamen Koreceye özgü ve Türkçe performansı hakkında doğrudan bir şey söylemiyor.

Türkçe 'Excellent' kategorisinde olduğundan, sadece Türkçe odaklı yüksek hacimli döküm işlerinde bile küresel üç büyük API rahatlıkla değerlendirilebilir. Çok dilli içerik (küresel YouTube kanalı, seslendirme iş akışı) veya İngilizce ağırlıklı işleriniz varsa zaten en doğru adres bu üçlü. Yine de tam ölçekli geçişten önce kendi kayıtlarınızla (aksan, alan terminolojisi, mikrofon kalitesi) kısa bir test yapmanızı öneririz. ⚡

🧰 4. Özellik Farkları: Altyazı ve tutanak oluştururken dikkat

Konuşmacı Ayrımı: Scribe v2 ve Deepgram'da API ile dahili olarak gelir. Açık kaynak Whisper'da bu özellik yoktur; pyannote gibi ekstra kütüphaneler kurmanız gerekir. OpenAI tarafında ise Ekim 2025'te gelen gpt-4o-transcribe-diarize modeli, ek ücret olmadan konuşmacı ayrımı desteği sunuyor.
Kelime Bazlı Zaman Damgası: Scribe v2 bunu varsayılan olarak destekler. OpenAI tarafında sadece eski "whisper-1" bunu destekliyor; yeni gpt-4o-transcribe modellerinde bu özellik yok. Altyazı iş akışı kuruyorsanız bu, dikkat etmeniz gereken bir tuzaktır.
Terim Düzeltme (Keyterms): Deepgram'ın "Keyterm Prompting" özelliği artık Türkçeyi de destekliyor — tıbbi terimlerin veya özel marka isimlerinin yoğun olduğu ses kayıtlarında çok işe yarar.

Scribe v2'yi ücretsiz planda denemeye başla →

🎯 5. Kullanım amacına göre nihai tavsiyeler

Kullanım Amacı	Öneri	Neden
YouTube, Podcast, Tutanak	Scribe v2	Yüksek doğruluk + konuşmacı ayrımı + zaman damgaları + hesaplı $0,22/saat.
Çağrı merkezi, Canlı altyazı	Deepgram Nova-3	504x hız + canlı akışta $0,29 + $200 ücretsiz kredi.
Sıfır bütçe, Yerel sunucu	Whisper self-hosting	MIT lisanslı ücretsiz. Konuşmacı ayrımı ve GPU altyapısı size ait.
Sadece Türkçe yüksek hacim	Yerel API'leri inceleyin	Bağımsız benchmark verilerinde yerel motorların CER başarısı.

⚠️ 6. Zayıf noktalar

Scribe v2: İşleme hızı (34x), Deepgram (504x) karşısında ciddi oranda daha yavaştır.
OpenAI: API için ücretsiz bir katman yok, yeni modeller kelime zaman damgasını desteklemiyor.
Deepgram: Bağımsız testlerde doğruluk oranı (%5,2) bu üçlü arasında en düşük olanı ve Türkçe desteği 2026'da Nova-3 ile gelen bir "geç kalan" hizmet.
Whisper (Açık kaynak): Ekim 2024'teki large-v3-turbo'dan sonra yeni bir sürümü yok. Konuşmacı ayrımı ve operasyonel yük tamamen size kalıyor.

🚀 Sonuç: Kendi sesinizle A/B testi yapın

Benchmark verileri sadece referanstır. Kendi kayıt kaliteniz, konuşma tarzınız ve terminolojinizle gerçek performansı ancak kendiniz test ederek görebilirsiniz. Neyse ki ElevenLabs'in ücretsiz planı + Deepgram'ın $200'lık kredisi ile hiçbir ücret ödemeden aynı dosyayı her ikisinde de test edebilirsiniz.

API entegrasyonuna yeni başlıyorsanız Ses AI API Entegrasyon Rehberi'ni, TTS tarafındaki karşılaştırmalar için ise ElevenLabs vs Google TTS vs Amazon Polly karşılaştırmasına göz atabilirsiniz.

ElevenLabs Scribe'a ücretsiz başlayın →

ElevenLabs Araştırma Laboratuvarı'ydı. ⚡