[2026 STT 大赛] 语音转文字AI哪家强？ElevenLabs Scribe、Whisper与Deepgram深度评测

🎯 阅读本文，你将获得：

• 截至2026年6月，基于独立评测机构（Artificial Analysis）数据的三大 STT 模型真实准确度排名
• 每小时成本核算 — 哪种 API 在不同负载下最具性价比
• 关于中文识别性能的客观现状（涵盖本土专用引擎的对比）
• 说话人识别（Diarization）、单词级时间戳 — 决定字幕与会议记录工作流效率的关键差异
• 不同场景的最终建议：视频字幕制作 / 实时流媒体 / 零成本自托管方案

📌 前言

大家好，这里是 ElevenLabs 实验室（ElevenLabs Lab）。

提到 ElevenLabs，很多人第一反应是 TTS（语音合成），但随着2026年1月 Scribe v2（批处理转写模型）的正式发布，我们在语音识别（STT）领域已经直接与 OpenAI Whisper、Deepgram 等头部玩家展开了正面竞争。
（实时转写专用的 Scribe v2 Realtime 已于 2025 年 11 月率先推出，以上信息基于官方发布记录）

如果说之前的 Scribe 介绍文章 是为了讲清基本概念，那么今天我们就是要通过独立评测数据和官方价格表，直接回答大家最关心的：“这三款产品，到底该选谁？”。文中所有厂商自称的数据，均已明确标注为“厂商内部评测”。

⚡ 给忙碌者的 3 条核心结论

1️⃣ 字幕、会议记录、播客等批处理转写 → Scribe v2（独立评测准确率位居前列 + 价格低至 $0.22/小时，优于 OpenAI）
2️⃣ 高并发实时流媒体、客服中心 → Deepgram Nova-3（在处理速度、流媒体单价及并发处理能力上具备优势）
3️⃣ 零成本支出、数据主权至上 → Whisper 自托管（MIT 开源协议，但说话人识别功能需自行开发实现）

📖 在深入之前，先简单普及 4 个核心术语 ⚡
• STT = Speech-to-Text，即“语音转文字”，将口述内容转化为文本的 AI 技术（会议记录、YouTube 字幕均由其生成）。
• WER = 词错率（Word Error Rate）。让 AI 听写 100 个词，报错的比例 — 数值越低，准确率越高。
• 说话人识别（Diarization） = 区分“这段话是谁说的，那段话又是谁说的”的能力，对于会议纪要整理至关重要。
• 单词级时间戳 = 给每个单词标注“在第几分几秒出现”的标签 — 制作精准字幕同步时必不可少。

📊 1. 准确度 — 独立评测机构怎么说？

STT 对比中最常见的陷阱就是“只看厂商自己的宣传资料”。
三家公司都声称自己是行业第一，因此我们参考了第三方独立评测机构 Artificial Analysis 的 AA-WER 指数（截至 2026 年 6 月，数值越低越准确）。

模型	AA-WER（越低越准）	处理速度系数
ElevenLabs Scribe v2	2.2% (综合排名第 2)	34.0x
OpenAI gpt-4o-transcribe	4.0%	—
OpenAI gpt-4o-mini-transcribe	4.5%	—
Deepgram Nova-3	5.2%	504.4x (碾压级第 1)

▲ 数据来源：Artificial Analysis 语音转文字排行榜（2026年6月核实）

总结一下 — 在准确度上，Scribe v2 领先于 OpenAI 和 Deepgram；而在处理速度上，Deepgram 凭借 504x 的效率处于不同量级。
换算一下，处理 1 小时的音频，Deepgram 仅需几秒，而 Scribe v2 则需要约 2 分钟左右。

顺便提一下，ElevenLabs 官方曾公布 Scribe v2 Realtime 在“欧洲及亚洲 30 种语言平均准确率 93.5%，是实时模型中 WER 最低”，但这属于厂商内部评测，大家参考即可。

💰 2. 价格 — 每小时处理单价分析

分类	Scribe v2	OpenAI	Deepgram Nova-3
批处理转写	$0.22/小时	$0.36/小时 (gpt-4o-transcribe) $0.18/小时 (mini)	$0.46/小时 (单语言)
实时流式转写	$0.39/小时	Realtime API Token 计费 (另计·费用较高)	$0.29/小时
说话人识别	默认包含	diarize 模型 $0.36/小时	默认包含
免费体验	免费方案每月 10,000 积分	API 无免费额度 (开源版自托管免费)	$200 积分 (无需绑卡·无有效期)

▲ 数据来源：elevenlabs.io/pricing/api · developers.openai.com 价格文档 · deepgram.com/pricing (2026年6月核实)

三大核心要点：

批处理性价比首选 Scribe v2 — 每小时仅需 $0.22，约为 gpt-4o-transcribe ($0.36) 的 60%，且准确率更高。Creator 计划（$22/月）已包含 100 小时的批处理转写额度。
流式转写单价首选 Deepgram — $0.29/小时（单语言）并支持秒级计费，PAYG 模式下 WebSocket 最高支持 150 个并发连接。
Deepgram 的 $200 免费额度 — 按 Nova-3 计算相当于约 433 小时的处理量，在三者中最为大方。对于开发者而言，测试成本几乎为零。

🇨🇳 3. 中文识别性能 — 客观坦诚的交流

这可能是本文最关键的部分。直接说结论：中文（普通话）在 ElevenLabs 官方语言等级中位列第二梯队，表现可圈可点，但距离英语那样的顶级水准还差一步。

根据 ElevenLabs 官方语言支持等级（2026 年 6 月确认），中文（普通话）被归类为 'High Accuracy'（WER 5~10%），与印地语等共 21 种语言同级。
而英语、日语、德语、法语等 36 种语言处于最高的 'Excellent' 级别（WER 5% 以下）——我们坦率承认，中文尚未进入这一梯队。

这里要特别提醒：网络上流传的一些基准数字很容易张冠李戴。比如 ElevenLabs 官方公布的 "Scribe v1 在 FLEURS 基准测试中 10.7% WER"，其实是针对韩语的数据，并不代表中文表现。目前我们还没有看到 Scribe 针对中文的同口径官方基准数字，引用时请务必注意归属。

另一个值得借鉴的案例：韩国市场曾有独立评测显示，本土特化引擎（Return Zero、Naver Clova 等，CER 5.9~7.5%）在本国语言上明显优于全球化引擎——但这同样是韩语专属的结论，不能直接套用到中文。中文场景下国内特化引擎是否同样占优，目前缺乏可对标的公开数据，最可靠的办法是用您自己的音频实际跑一遍对比。

因此，如果您的核心业务是"大规模中文语音转写"，除了全球化 API，也建议把国内专项服务纳入候选并亲自实测。
反之，如果是处理多语言内容（如 YouTube 全球频道、跨国配音工作流）或者以英语为主的业务，选择全球三大巨头之一更为稳妥。
作为技术博客，我们希望给开发者提供最准确的预期，而非单纯的推销。😅

🧰 4. 功能差异 — 字幕与会议纪要的难点

说话人识别（Diarization）：Scribe v2 与 Deepgram 将其内建于 API 中。而开源 Whisper 本身没有此功能，通常需要结合 pyannote 等库自行实现。
OpenAI 的 gpt-4o-transcribe-diarize（2025年10月推出）支持免费说话人识别，并支持预录入 4 名说话人身份。
单词级时间戳（字幕同步）：Scribe v2 原生支持。
OpenAI 仅 Whisper-1 旧版本支持，最新的 gpt-4o-transcribe 系列暂不支持。对于字幕制作流程，这是一个容易踩的坑。
术语修正：Deepgram 的 Keyterm Prompting（关键字提示）支持中文，在品牌名称、医学术语等高频专业词汇场景中非常实用。

立即使用 Scribe v2 免费计划测试 →

🎯 5. 不同场景的最终建议

场景	推荐	理由
YouTube 字幕/播客/会议	Scribe v2	独立评测高准确率 + 自带说话人/时间戳 + 仅 $0.22/小时
实时客服/直播字幕/高并发	Deepgram Nova-3	504x 处理速度·流式 $0.29/小时·高并发，$200 免费额度
零预算/内部私有化部署	Whisper 自托管	MIT 协议开源。需自行处理说话人识别及 GPU 算力运维
大规模中文转写专用	调研国产特化 API	根据第三方评测，国产引擎在特定中文指标上更具优势

⚠️ 6. 各方痛点总结

Scribe v2：处理速度（34x）远低于 Deepgram（504x）。免费计划的额度换算说明在官方页面不够明确，建议使用前观察积分消耗。
OpenAI：无 API 免费额度，最新模型暂不支持单词级时间戳，且实时模型按 Token 计费，成本预测困难。
Deepgram：在独立评测中准确率处于三者底层（5.2%），中文支持为 2026 年新增的后发功能。
Whisper(开源)：自 2024 年 10 月推出 large-v3-turbo 后暂无更新。所有基础设施及说话人区分逻辑均需自行维护。

🚀 结语 — 最终答案取决于“你的音频数据”

所有的基准评测都只是参考，你的音频录制环境、语速及行业词汇密度，才是决定性能的关键。幸运的是，您可以直接利用 ElevenLabs 的免费额度 + Deepgram 的 $200 积分，对同一份音频文件进行对比测试。

如果是第一次进行开发对接，可以参阅我们的 语音 AI API 对接指南；如果是 TTS 相关的对比，也可以看看这篇 ElevenLabs vs Google TTS vs Amazon Polly 对比测评。

现在开始体验 ElevenLabs Scribe →

ElevenLabs 实验室 ⚡