[STT 2026] Siapa Juara AI Transkripsi? Perbandingan ElevenLabs, Whisper, & Deepgram

Ingin tahu AI transkripsi terbaik di tahun 2026? Kami mengulas perbandingan independen antara ElevenLabs Scribe v2, OpenAI Whisper (GPT-4o Transcribe), dan Deepgram Nova-3 berdasarkan akurasi, harga, performa bahasa Indonesia, dan fitur pemisahan pembicara (diarization). Temukan pemenang sesuai kebutuhan Anda dan analisis jujur mengenai keterbatasan teknologi AI transkripsi saat ini. Optimalkan efisiensi kerja Anda dengan memilih mesin speech-to-text yang paling tepat dan hemat biaya.

🎯 Apa yang akan Anda pelajari dari artikel ini

• Peringkat akurasi STT terbaru per Juni 2026 berdasarkan benchmark independen (Artificial Analysis).
• Perbandingan harga per jam — API mana yang paling hemat untuk beban kerja Anda?
Realitas performa bahasa Indonesia (termasuk efektivitas mesin lokal/global).
• Perbedaan krusial dalam diarization (pemisahan pembicara) dan timestamp kata untuk alur kerja subtitle/notulensi rapat.
• Rekomendasi berdasarkan kebutuhan: Pembuatan subtitle / Live streaming / Self-hosting gratis.

 

📌 Pendahuluan

Halo, ini adalah Laboratorium ElevenLabs.

Banyak yang mengenal ElevenLabs hanya untuk TTS (Speech Synthesis), namun sejak Scribe v2 (batch transcription) dirilis resmi pada Januari 2026, kami kini bersaing langsung di pasar STT dengan OpenAI Whisper dan Deepgram.
(Versi real-time, Scribe v2 Realtime, telah dirilis lebih dulu pada November 2025 — menurut pengumuman resmi blog kami).

 

Jika sebelumnya kami membahas konsep dasar di artikel pengenalan Scribe, hari ini kami akan menjawab pertanyaan "Lalu, mana yang harus saya pilih?" dengan mengacu pada benchmark independen dan daftar harga resmi. Angka dari pihak vendor sendiri telah kami beri keterangan sebagai 'benchmark internal'.

 

⚡ Kesimpulan cepat untuk Anda yang sibuk

1️⃣ Subtitle/Notulensi/Podcast (Batch)Scribe v2 (Akurasi tertinggi dalam benchmark independen + lebih hemat dibanding OpenAI dengan harga $0,22/jam).
2️⃣ Streaming massal/Call centerDeepgram Nova-3 (Unggul dalam kecepatan pemrosesan, biaya streaming, dan konkurensi).
3️⃣ Biaya Rp0 & Kedaulatan DataWhisper Self-hosting (Lisensi MIT, namun fitur diarization harus dikembangkan sendiri).

 

 

📖 Sebelum lanjut — Mari pahami 4 istilah ini ⚡

STT = Speech-to-Text, teknologi AI yang mengubah ucapan menjadi teks (digunakan untuk notulensi rapat dan subtitle YouTube).
WER = Word Error Rate (tingkat kesalahan). Semakin rendah nilainya, semakin akurat hasilnya.
Diarization = Fitur untuk membedakan "siapa yang berbicara" (misal: Pembicara A vs Pembicara B). Sangat penting untuk notulensi rapat.
Timestamp kata = Menandai kapan tepatnya sebuah kata diucapkan (menit:detik) — wajib untuk sinkronisasi subtitle.

 

📊 1. Akurasi — Apa kata benchmark independen?

Jebakan paling umum saat membandingkan STT adalah "hanya melihat data dari pihak vendor".
Ketiga perusahaan tentu mengeklaim bahwa merekalah yang terbaik. Oleh karena itu, kami merujuk pada indeks AA-WER dari Artificial Analysis (per Juni 2026, semakin rendah angkanya, semakin akurat hasilnya).

 

Model

AA-WER (Lebih rendah lebih baik)

Koefisien Kecepatan

ElevenLabs Scribe v2

2,2% (Peringkat 2 global)

34,0x

OpenAI gpt-4o-transcribe

4,0%

OpenAI gpt-4o-mini-transcribe

4,5%

Deepgram Nova-3

5,2%

504,4x (Peringkat 1)

▲ Sumber: Leaderboard Artificial Analysis Speech-to-Text (per Juni 2026)

 

Kesimpulannya — Akurasi Scribe v2 mengungguli OpenAI dan Deepgram, sementara kecepatan pemrosesan Deepgram mencapai 504x yang berada di level berbeda.
Sebagai gambaran, 1 jam audio diproses Deepgram dalam hitungan detik, sedangkan Scribe v2 membutuhkan waktu sekitar 2 menit.

Sebagai catatan, ElevenLabs menyatakan Scribe v2 Realtime memiliki "rata-rata akurasi 93,5% untuk 30 bahasa di Eropa/Asia", namun ini adalah benchmark internal, jadi mohon jadikan sebagai referensi saja.

 

💰 2. Harga — Analisis per jam

Kategori

Scribe v2

OpenAI

Deepgram Nova-3

Batch Transcription

$0,22/jam

$0,36/jam (gpt-4o-transcribe)
$0,18/jam (mini)

$0,46/jam (Single-lang)

Live Streaming

$0,39/jam

Tagihan Token Realtime API (Variabel)

$0,29/jam

Diarization

Termasuk

Model diarize $0,36/jam

Termasuk

Uji Coba Gratis

10.000 kredit/bulan (Plan Gratis)

Tidak ada API Free Tier

Kredit $200 (Tanpa kartu kredit/Tidak kedaluwarsa)

▲ Sumber: elevenlabs.io/pricing/api · developers.openai.com · deepgram.com/pricing (per Juni 2026)

 

Tiga poin utama:

  • Efisiensi biaya batch — Scribe v2 memberikan harga $0,22/jam, sekitar 60% dari biaya gpt-4o-transcribe ($0,36) dengan akurasi yang lebih tinggi. Plan Creator ($22/bulan) sudah mencakup 100 jam batch transcription.

  • Biaya streaming — Deepgram unggul di angka $0,29/jam (single-language) dengan penagihan per detik dan mendukung hingga 150 koneksi WebSocket simultan dalam mode PAYG.

  • Kredit gratis $200 Deepgram setara dengan 433 jam untuk Nova-3, yang menjadikannya opsi paling dermawan untuk testing tanpa perlu khawatir soal biaya.

 

🇮🇩 3. Performa Bahasa Indonesia — Kami sampaikan sejujurnya

Ini mungkin bagian terpenting. Dan jawaban jujurnya kali ini justru kabar baik: untuk STT, bahasa Indonesia termasuk kelompok bahasa dengan dukungan terbaik di ElevenLabs.

 

Berdasarkan halaman resmi ElevenLabs Speech to Text, bahasa Indonesia masuk tingkatan 'Excellent Accuracy' (WER di bawah 5%) — kategori tertinggi yang sama dengan bahasa Inggris, Jerman, Prancis, dan Jepang (total 36 bahasa di tingkatan ini).

Satu catatan penting agar tidak salah kaprah: angka benchmark "Scribe v1 mencapai WER 10,7% di FLEURS" yang sering beredar adalah hasil untuk bahasa Korea — bahasa yang memang berada di tingkatan 'Good' (WER 10~20%) — sesuai publikasi ElevenLabs sendiri. Jadi angka itu tidak bisa dipakai untuk menilai performa bahasa Indonesia.

 

Tentu saja, tingkatan resmi bukan jaminan mutlak. Performa di dunia nyata sangat bergantung pada audio Anda sendiri: logat daerah, campuran bahasa Indonesia-Inggris, istilah teknis, sampai kualitas rekaman. WER di bawah 5% pada dataset standar bisa terasa berbeda saat menghadapi rekaman rapat yang riuh. ⚡

Karena itu, sebelum berkomitmen pada satu penyedia, lakukan uji coba banding (A/B testing) dengan sampel audio Anda sendiri pada ketiga API global (ElevenLabs, OpenAI, Deepgram). Kami percaya rekomendasi yang jujur jauh lebih baik daripada sekadar memasarkan produk — dan untuk bahasa Indonesia, posisinya di tingkatan tertinggi memang layak Anda buktikan sendiri. 😅

 

🧰 4. Perbedaan Fitur — Untuk Subtitle dan Notulensi

  • Diarization: Tersedia bawaan di API Scribe v2 dan Deepgram. Whisper open-source tidak mendukung ini dan membutuhkan pustaka tambahan seperti pyannote. OpenAI menyediakan gpt-4o-transcribe-diarize tanpa biaya tambahan (mendukung hingga 4 pembicara).

  • Timestamp per kata: Didukung penuh oleh Scribe v2. OpenAI hanya mendukung ini pada model legacy whisper-1, bukan pada gpt-4o-transcribe, yang bisa menjadi hambatan dalam alur kerja subtitle.

  • Koreksi istilah teknis: Fitur Keyterm Prompting dari Deepgram kini mendukung bahasa Indonesia — sangat berguna untuk transkripsi medis atau nama jenama khusus.

 

Coba Scribe v2 dengan Plan Gratis →

 

🎯 5. Rekomendasi berdasarkan kegunaan

Kegunaan

Rekomendasi

Alasan

Subtitle YouTube/Podcast/Notulensi

Scribe v2

Akurasi tertinggi, fitur lengkap (diarization/timestamp), harga kompetitif $0,22/jam.

Live call center/Live captioning

Deepgram Nova-3

Kecepatan 504x, biaya streaming $0,29/jam, kredit gratis $200.

Budget Rp0/Data privasi ketat

Whisper Self-hosting

Gratis (MIT), namun harus membangun infrastruktur diarization dan GPU sendiri.

Transkripsi massal Bahasa Indonesia

Bandingkan dengan API lokal

Mesin lokal sering memiliki keunggulan kompetitif pada akurasi tata bahasa nasional.

 

⚠️ 6. Kekurangan masing-masing model

  • Scribe v2: Kecepatan (34x) jauh lebih lambat dibanding Deepgram (504x). Konversi waktu STT dalam plan gratis tidak tertulis secara eksplisit, disarankan cek langsung di dasbor.

  • OpenAI: Tidak ada free tier API, model terbaru tidak mendukung timestamp kata, dan biaya streaming sulit diprediksi karena berbasis token.

  • Deepgram: Akurasi benchmark independen terendah (5,2%) dan dukungan bahasa Indonesia yang relatif baru hadir di Nova-3.

  • Whisper (Open Source): Tidak ada pembaruan sejak large-v3-turbo (Oktober 2024). Anda harus bertanggung jawab penuh atas infrastruktur dan diarization.

 

🚀 Penutup — Jawabannya ada di "A/B Testing"

Benchmark hanyalah angka. Performa pada audio spesifik Anda (lingkungan rekam, gaya bicara, istilah teknis) hanya bisa diketahui melalui uji coba langsung. Beruntungnya, ElevenLabs Free Plan + Deepgram $200 Kredit memungkinkan Anda mencoba keduanya tanpa mengeluarkan uang sama sekali.

Jika Anda baru memulai integrasi, silakan cek Panduan Integrasi API Voice AI, atau untuk perbandingan TTS, baca ElevenLabs vs Google TTS vs Amazon Polly.

 

Mulai dengan ElevenLabs Scribe (Gratis) →

 

Salam dari Laboratorium ElevenLabs! ⚡