[STT Đại chiến 2026] Ai là quán quân AI chuyển giọng nói thành văn bản? So sánh ElevenLabs Scribe, Whisper và Deepgram

🎯 Bạn sẽ nhận được gì từ bài viết này?

• Cập nhật tháng 6/2026: Bảng xếp hạng độ chính xác STT dựa trên benchmark độc lập (Artificial Analysis).
• So sánh chi phí theo giờ — API nào tiết kiệm nhất cho nhu cầu của bạn?
• Thực tế về hiệu suất tiếng Việt (và các dịch vụ chuyên biệt tại địa phương).
• Sự khác biệt then chốt trong quy trình làm phụ đề/biên bản cuộc họp: Tách giọng (diarization) & timestamp từng từ.
• Lời khuyên cuối cùng: Nên chọn giải pháp nào cho phụ đề / livestream / tự lưu trữ (self-hosting)?

📌 Lời mở đầu

Xin chào, đây là ElevenLabs Lab.

Nhiều người thường chỉ nghĩ đến ElevenLabs khi nhắc tới TTS (chuyển văn bản thành giọng nói), nhưng kể từ khi Scribe v2 (xử lý theo lô) ra mắt chính thức vào tháng 1/2026, chúng tôi đã tạo nên thế đối đầu trực diện với OpenAI Whisper và Deepgram trong thị trường chuyển giọng nói thành văn bản (STT).
(Phiên bản Scribe v2 Realtime dành cho phát trực tiếp cũng đã ra mắt từ tháng 11/2025 theo thông báo từ blog chính thức).

Nếu bài viết giới thiệu về Scribe trước đây đã cung cấp các khái niệm cơ bản, thì hôm nay chúng ta sẽ trả lời câu hỏi "Vậy nên chọn giải pháp nào trong ba lựa chọn trên?" dựa trên các benchmark độc lập và bảng giá chính thức. Lưu ý rằng mọi số liệu do chính các nhà cung cấp đưa ra đều được chú thích là 'benchmark nội bộ'.

⚡ Tóm tắt nhanh cho người bận rộn

1️⃣ Phụ đề, biên bản cuộc họp, Podcast: Chọn Scribe v2 (Độ chính xác đứng đầu theo benchmark độc lập + chỉ $0.22/giờ, tiết kiệm hơn OpenAI).
2️⃣ Livestream số lượng lớn, tổng đài: Chọn Deepgram Nova-3 (Vượt trội về tốc độ xử lý, chi phí streaming và khả năng xử lý đồng thời).
3️⃣ Ưu tiên miễn phí, chủ quyền dữ liệu: Chọn Whisper self-hosting (Giấy phép MIT, nhưng bạn phải tự triển khai tính năng tách giọng).

📖 Trước khi bắt đầu — Giải nghĩa 4 thuật ngữ quan trọng ⚡
• STT = Speech-to-Text, "AI chép chính tả" giúp chuyển lời nói thành văn bản (dùng cho phụ đề YouTube, biên bản họp).
• WER = Tỷ lệ lỗi. Khi yêu cầu chép 100 từ, bạn sai bao nhiêu từ — càng thấp càng chính xác.
• Tách giọng (Diarization) = Tính năng nhận diện "Đây là lời người A nói, kia là lời người B nói". Rất quan trọng cho biên bản họp.
• Timestamp từng từ = Gắn mốc thời gian "phút bao nhiêu, giây bao nhiêu" cho từng từ — bắt buộc phải có để khớp phụ đề.

📊 1. Độ chính xác — Những gì benchmark độc lập cho thấy

Cái bẫy lớn nhất khi so sánh STT là "chỉ nhìn vào tài liệu do các công ty tự công bố". Công ty nào cũng khẳng định mình là số 1. Vì vậy, chúng tôi dựa trên chỉ số AA-WER từ Artificial Analysis (tính đến tháng 6/2026, chỉ số càng thấp càng chính xác).

Mô hình	AA-WER (Thấp là tốt)	Hệ số tốc độ
ElevenLabs Scribe v2	2.2% (Hạng 2 toàn cầu)	34.0x
OpenAI gpt-4o-transcribe	4.0%	—
OpenAI gpt-4o-mini-transcribe	4.5%	—
Deepgram Nova-3	5.2%	504.4x (Hạng 1 áp đảo)

▲ Nguồn: Bảng xếp hạng Speech-to-Text của Artificial Analysis (Tháng 6/2026)

Tóm lại — Về độ chính xác, Scribe v2 vượt qua cả OpenAI và Deepgram, còn về tốc độ xử lý, Deepgram đạt 504x, ở một đẳng cấp hoàn toàn khác.
Hãy hình dung: để xử lý 1 giờ âm thanh, Deepgram chỉ mất vài giây, trong khi Scribe v2 mất khoảng 2 phút.

Cần lưu ý thêm, ElevenLabs tuyên bố Scribe v2 Realtime là "mô hình thời gian thực có WER thấp nhất, trung bình 93.5% cho 30 ngôn ngữ châu Âu/châu Á". Tuy nhiên, đây là benchmark nội bộ nên hãy cân nhắc kỹ.

💰 2. Giá cả — Quy đổi theo giờ

Hạng mục	Scribe v2	OpenAI	Deepgram Nova-3
Xử lý theo lô (Batch)	$0.22/giờ	$0.36/giờ (gpt-4o-transcribe) $0.18/giờ (mini)	$0.46/giờ (đơn ngữ)
Livestream	$0.39/giờ	Tính phí theo token (Đắt hơn)	$0.29/giờ
Tách giọng	Bao gồm sẵn	Mô hình diarize $0.36/giờ	Bao gồm sẵn
Dùng thử	10,000 credit/tháng	Không có gói miễn phí	$200 credit (Không cần thẻ)

▲ Nguồn: elevenlabs.io/pricing/api · developers.openai.com · deepgram.com/pricing (Tháng 6/2026)

Ba điểm mấu chốt:

Hiệu quả chi phí cho xử lý lô là Scribe v2 — Với $0.22/giờ, rẻ hơn khoảng 40% so với gpt-4o-transcribe ($0.36) trong khi độ chính xác cao hơn. Gói Creator ($22/tháng) đã bao gồm 100 giờ xử lý lô.
Chi phí streaming là Deepgram — Giá $0.29/giờ (đơn ngữ) tính phí theo giây, hỗ trợ tới 150 kết nối WebSocket đồng thời ngay cả với người dùng PAYG.
$200 credit của Deepgram tương đương khoảng 433 giờ cho Nova-3, rộng rãi nhất trong 3 đơn vị. Về cơ bản, bạn không cần lo chi phí thử nghiệm.

🇻🇳 3. Hiệu suất tiếng Việt — Nói thẳng nói thật

Đây có lẽ là phần quan trọng nhất cho độc giả Việt Nam. Và tin vui là: tiếng Việt nằm trong nhóm ngôn ngữ được nhận dạng tốt nhất của ElevenLabs Scribe.

Trong bảng phân hạng ngôn ngữ chính thức (elevenlabs.io/speech-to-text), ElevenLabs xếp tiếng Việt vào nhóm 'Excellent Accuracy' (WER ≤5%) — nhóm cao nhất, ngang hàng với tiếng Anh, Nhật, Pháp, Đức (tổng cộng 36 ngôn ngữ).

Để dễ hình dung khoảng cách giữa các nhóm: tiếng Hàn chỉ được xếp ở nhóm 'Good' (WER 10~20%), và con số 10.7% WER trên benchmark FLEURS (Scribe v1) mà ElevenLabs từng công bố là số liệu cho tiếng Hàn, không phải tiếng Việt. ElevenLabs chưa công bố con số FLEURS riêng cho tiếng Việt, nhưng việc đứng trong nhóm Excellent đồng nghĩa mức WER mục tiêu dưới 5% — một khởi đầu rất khác so với nhiều ngôn ngữ châu Á khác.

Tuy vậy, vẫn cần một góc nhìn thực tế. Ở các thị trường nội địa, dịch vụ chuyên biệt đôi khi xử lý từ ngữ và ngữ cảnh bản địa tốt hơn engine toàn cầu, nhất là với thuật ngữ chuyên ngành. Do đó, nếu mục tiêu của bạn là xử lý khối lượng lớn tài liệu tiếng Việt chuyên sâu (hợp đồng pháp lý, y tế), hãy tự benchmark với chính file của mình thay vì tin vào con số quảng cáo, và thử thêm cả các giải pháp nội địa nếu có.
Nếu làm nội dung đa ngôn ngữ (YouTube quốc tế, quy trình lồng tiếng) hoặc tập trung vào tiếng Anh, thì 3 "ông lớn" toàn cầu nêu trên vẫn là lựa chọn hàng đầu — và với vị trí Excellent của tiếng Việt, Scribe là điểm xuất phát rất đáng thử.

🧰 4. Khác biệt tính năng — Khi làm phụ đề & biên bản

Tách giọng (Ai nói gì): Scribe v2 và Deepgram tích hợp sẵn trong API. Whisper bản mã nguồn mở không có, bạn phải kết hợp với thư viện bên thứ ba như pyannote. OpenAI hỗ trợ gpt-4o-transcribe-diarize từ tháng 10/2025.
Timestamp từng từ (Khớp phụ đề): Scribe v2 hỗ trợ mặc định.
OpenAI chỉ hỗ trợ trên model whisper-1 cũ, còn dòng gpt-4o-transcribe mới thì không hỗ trợ, đây là "cái bẫy" cần lưu ý nếu bạn làm phụ đề chuyên nghiệp.
Điều chỉnh thuật ngữ chuyên môn: Tính năng Keyterm Prompting của Deepgram có hỗ trợ tiếng Việt — rất hữu ích cho các đoạn ghi âm có nhiều tên thương hiệu hoặc từ vựng kỹ thuật.

Thử nghiệm ngay với gói miễn phí Scribe v2 →

🎯 5. Khuyến nghị cho từng mục đích sử dụng

Mục đích	Khuyến nghị	Lý do
Phụ đề YouTube, Podcast	Scribe v2	Độ chính xác cao, có tách giọng/timestamp, giá $0.22/giờ
Tổng đài, Livestream, xử lý lớn	Deepgram Nova-3	Tốc độ 504x, rẻ cho streaming, có $200 credit thử nghiệm
Ngân sách $0, bảo mật cao	Whisper self-hosting	Miễn phí (Giấy phép MIT). Tự trả phí GPU và tự cài đặt
Nội dung thuần tiếng Việt	So sánh với AI địa phương	Các engine bản địa đôi khi hiểu ngữ pháp/địa phương tốt hơn

⚠️ 6. Điểm yếu cần lưu ý

Scribe v2: Tốc độ xử lý (34x) chậm hơn đáng kể so với Deepgram (504x).
OpenAI: Không có gói miễn phí, model mới không hỗ trợ timestamp, khó dự báo chi phí streaming vì tính theo token.
Deepgram: Độ chính xác theo benchmark độc lập thấp nhất (5.2%), là "người đến sau" trong hỗ trợ tiếng Việt (2026).
Whisper (Mã nguồn mở): Không có cập nhật mới từ bản large-v3-turbo (10/2024). Bạn phải tự quản lý cơ sở hạ tầng.

🚀 Lời kết — Cách tốt nhất là "A/B Test với chính file của bạn"

Benchmark chỉ để tham khảo, hiệu quả thực tế phụ thuộc vào chất lượng file ghi âm của bạn. Rất may là với Gói miễn phí ElevenLabs + $200 credit từ Deepgram, bạn có thể tự so sánh hoàn toàn miễn phí.

Nếu bạn mới bắt đầu tích hợp API, hãy xem Hướng dẫn tích hợp Voice AI API hoặc so sánh về TTS tại ElevenLabs vs Google TTS vs Amazon Polly.

Bắt đầu với ElevenLabs Scribe (Miễn phí) →

Thân ái, ElevenLabs Lab. ⚡