[2026 STT 大赛] 语音转文字AI哪家强?ElevenLabs Scribe、Whisper与Deepgram深度评测

2026年6月最新评测!针对ElevenLabs Scribe v2、OpenAI Whisper(GPT-4o Transcribe)及Deepgram Nova-3进行深度对比。基于独立基准测试与官方定价,全面解析各款STT工具在识别准确度、价格成本、中文性能及说话人分离技术上的表现。本文将为您详细梳理不同应用场景下的最佳选择,并客观分析当前AI语音识别在处理中文语境时的局限性,助您精准选择最适合的语音转文字解决方案。

🎯 阅读本文,你将获得:

• 截至2026年6月,基于独立评测机构(Artificial Analysis)数据的三大 STT 模型真实准确度排名
• 每小时成本核算 — 哪种 API 在不同负载下最具性价比
关于中文识别性能的客观现状(涵盖本土专用引擎的对比)
• 说话人识别(Diarization)、单词级时间戳 — 决定字幕与会议记录工作流效率的关键差异
• 不同场景的最终建议:视频字幕制作 / 实时流媒体 / 零成本自托管方案

 

📌 前言

大家好,这里是 ElevenLabs 实验室(ElevenLabs Lab)

提到 ElevenLabs,很多人第一反应是 TTS(语音合成),但随着2026年1月 Scribe v2(批处理转写模型)的正式发布,我们在语音识别(STT)领域已经直接与 OpenAI Whisper、Deepgram 等头部玩家展开了正面竞争。
(实时转写专用的 Scribe v2 Realtime 已于 2025 年 11 月率先推出,以上信息基于官方发布记录)

 

如果说之前的 Scribe 介绍文章 是为了讲清基本概念,那么今天我们就是要通过独立评测数据和官方价格表,直接回答大家最关心的:“这三款产品,到底该选谁?”。文中所有厂商自称的数据,均已明确标注为“厂商内部评测”。

 

⚡ 给忙碌者的 3 条核心结论

1️⃣ 字幕、会议记录、播客等批处理转写Scribe v2(独立评测准确率位居前列 + 价格低至 $0.22/小时,优于 OpenAI)
2️⃣ 高并发实时流媒体、客服中心Deepgram Nova-3(在处理速度、流媒体单价及并发处理能力上具备优势)
3️⃣ 零成本支出、数据主权至上Whisper 自托管(MIT 开源协议,但说话人识别功能需自行开发实现)

 

 

📖 在深入之前,先简单普及 4 个核心术语 ⚡

STT = Speech-to-Text,即“语音转文字”,将口述内容转化为文本的 AI 技术(会议记录、YouTube 字幕均由其生成)。
WER = 词错率(Word Error Rate)。让 AI 听写 100 个词,报错的比例 — 数值越低,准确率越高
说话人识别(Diarization) = 区分“这段话是谁说的,那段话又是谁说的”的能力,对于会议纪要整理至关重要。
单词级时间戳 = 给每个单词标注“在第几分几秒出现”的标签 — 制作精准字幕同步时必不可少。

 

📊 1. 准确度 — 独立评测机构怎么说?

STT 对比中最常见的陷阱就是“只看厂商自己的宣传资料”。
三家公司都声称自己是行业第一,因此我们参考了第三方独立评测机构 Artificial Analysis 的 AA-WER 指数(截至 2026 年 6 月,数值越低越准确)。

 

模型

AA-WER(越低越准)

处理速度系数

ElevenLabs Scribe v2

2.2% (综合排名第 2)

34.0x

OpenAI gpt-4o-transcribe

4.0%

OpenAI gpt-4o-mini-transcribe

4.5%

Deepgram Nova-3

5.2%

504.4x (碾压级第 1)

▲ 数据来源:Artificial Analysis 语音转文字排行榜(2026年6月核实)

 

总结一下 — 在准确度上,Scribe v2 领先于 OpenAI 和 Deepgram;而在处理速度上,Deepgram 凭借 504x 的效率处于不同量级
换算一下,处理 1 小时的音频,Deepgram 仅需几秒,而 Scribe v2 则需要约 2 分钟左右。

顺便提一下,ElevenLabs 官方曾公布 Scribe v2 Realtime 在“欧洲及亚洲 30 种语言平均准确率 93.5%,是实时模型中 WER 最低”,但这属于厂商内部评测,大家参考即可。

 

💰 2. 价格 — 每小时处理单价分析

分类

Scribe v2

OpenAI

Deepgram Nova-3

批处理转写

$0.22/小时

$0.36/小时 (gpt-4o-transcribe)
$0.18/小时 (mini)

$0.46/小时 (单语言)

实时流式转写

$0.39/小时

Realtime API Token 计费 (另计·费用较高)

$0.29/小时

说话人识别

默认包含

diarize 模型 $0.36/小时

默认包含

免费体验

免费方案每月 10,000 积分

API 无免费额度
(开源版自托管免费)

$200 积分 (无需绑卡·无有效期)

▲ 数据来源:elevenlabs.io/pricing/api · developers.openai.com 价格文档 · deepgram.com/pricing (2026年6月核实)

 

三大核心要点:

  • 批处理性价比首选 Scribe v2 — 每小时仅需 $0.22,约为 gpt-4o-transcribe ($0.36) 的 60%,且准确率更高。Creator 计划($22/月)已包含 100 小时的批处理转写额度。

  • 流式转写单价首选 Deepgram — $0.29/小时(单语言)并支持秒级计费,PAYG 模式下 WebSocket 最高支持 150 个并发连接。

  • Deepgram 的 $200 免费额度 — 按 Nova-3 计算相当于约 433 小时的处理量,在三者中最为大方。对于开发者而言,测试成本几乎为零。

 

🇨🇳 3. 中文识别性能 — 客观坦诚的交流

这可能是本文最关键的部分。直接说结论:中文(普通话)在 ElevenLabs 官方语言等级中位列第二梯队,表现可圈可点,但距离英语那样的顶级水准还差一步。

 

根据 ElevenLabs 官方语言支持等级(2026 年 6 月确认),中文(普通话)被归类为 'High Accuracy'(WER 5~10%),与印地语等共 21 种语言同级。
而英语、日语、德语、法语等 36 种语言处于最高的 'Excellent' 级别(WER 5% 以下)——我们坦率承认,中文尚未进入这一梯队。

这里要特别提醒:网络上流传的一些基准数字很容易张冠李戴。比如 ElevenLabs 官方公布的 "Scribe v1 在 FLEURS 基准测试中 10.7% WER",其实是针对韩语的数据,并不代表中文表现。目前我们还没有看到 Scribe 针对中文的同口径官方基准数字,引用时请务必注意归属。

 

另一个值得借鉴的案例:韩国市场曾有独立评测显示,本土特化引擎(Return Zero、Naver Clova 等,CER 5.9~7.5%)在本国语言上明显优于全球化引擎——但这同样是韩语专属的结论,不能直接套用到中文。中文场景下国内特化引擎是否同样占优,目前缺乏可对标的公开数据,最可靠的办法是用您自己的音频实际跑一遍对比。

因此,如果您的核心业务是"大规模中文语音转写",除了全球化 API,也建议把国内专项服务纳入候选并亲自实测。
反之,如果是处理多语言内容(如 YouTube 全球频道、跨国配音工作流)或者以英语为主的业务,选择全球三大巨头之一更为稳妥。
作为技术博客,我们希望给开发者提供最准确的预期,而非单纯的推销。😅

 

🧰 4. 功能差异 — 字幕与会议纪要的难点

  • 说话人识别(Diarization):Scribe v2 与 Deepgram 将其内建于 API 中。而开源 Whisper 本身没有此功能,通常需要结合 pyannote 等库自行实现。
    OpenAI 的 gpt-4o-transcribe-diarize(2025年10月推出)支持免费说话人识别,并支持预录入 4 名说话人身份。

  • 单词级时间戳(字幕同步):Scribe v2 原生支持。
    OpenAI 仅 Whisper-1 旧版本支持,最新的 gpt-4o-transcribe 系列暂不支持。对于字幕制作流程,这是一个容易踩的坑。

  • 术语修正:Deepgram 的 Keyterm Prompting(关键字提示)支持中文,在品牌名称、医学术语等高频专业词汇场景中非常实用。

 

立即使用 Scribe v2 免费计划测试 →

 

🎯 5. 不同场景的最终建议

场景

推荐

理由

YouTube 字幕/播客/会议

Scribe v2

独立评测高准确率 + 自带说话人/时间戳 + 仅 $0.22/小时

实时客服/直播字幕/高并发

Deepgram Nova-3

504x 处理速度·流式 $0.29/小时·高并发,$200 免费额度

零预算/内部私有化部署

Whisper 自托管

MIT 协议开源。需自行处理说话人识别及 GPU 算力运维

大规模中文转写专用

调研国产特化 API

根据第三方评测,国产引擎在特定中文指标上更具优势

 

⚠️ 6. 各方痛点总结

  • Scribe v2:处理速度(34x)远低于 Deepgram(504x)。免费计划的额度换算说明在官方页面不够明确,建议使用前观察积分消耗。

  • OpenAI:无 API 免费额度,最新模型暂不支持单词级时间戳,且实时模型按 Token 计费,成本预测困难。

  • Deepgram:在独立评测中准确率处于三者底层(5.2%),中文支持为 2026 年新增的后发功能。

  • Whisper(开源):自 2024 年 10 月推出 large-v3-turbo 后暂无更新。所有基础设施及说话人区分逻辑均需自行维护。

 

🚀 结语 — 最终答案取决于“你的音频数据”

所有的基准评测都只是参考,你的音频录制环境、语速及行业词汇密度,才是决定性能的关键。幸运的是,您可以直接利用 ElevenLabs 的免费额度 + Deepgram 的 $200 积分,对同一份音频文件进行对比测试。

如果是第一次进行开发对接,可以参阅我们的 语音 AI API 对接指南;如果是 TTS 相关的对比,也可以看看这篇 ElevenLabs vs Google TTS vs Amazon Polly 对比测评

 

现在开始体验 ElevenLabs Scribe →

 

ElevenLabs 实验室