🎯 この記事でわかること
• 2026年6月現在、独立系ベンチマーク(Artificial Analysis)が示すSTT主要3社のリアルな精度ランキング
• 時間単価比較 — どのAPIが最もコストパフォーマンスが高いのか
• 韓国語認識性能の率直な現実(現地特化型エンジンとの比較まで)
• 話者分離・単語タイムスタンプ — 字幕・議事録作成のワークフローを左右する決定的な違い
• 用途別最終レコメンド:字幕制作 / リアルタイム配信 / 自社ホスティング(運用コスト最適化)
📌 はじめに
こんにちは、ElevenLabs Lab(イレブンラボ・ラボ)です。
ElevenLabsといえばTTS(音声合成)というイメージが強いかもしれませんが、2026年1月にScribe v2(バッチ処理文字起こし)が正式リリースされたことで、今やOpenAI WhisperやDeepgramと真っ向から競うSTT(音声認識)プレイヤーとなりました。
(リアルタイム対応のScribe v2 Realtimeは、2025年11月に先行リリース済みです — 公式発表より)
以前のScribe紹介記事で基本概念については触れましたので、今回は「結局、どれを使えばいいの?」という疑問に対し、独立系ベンチマークと公式価格表をベースに回答していきます。各社独自の発表数値は、本文中で「自社ベンチマーク」と明記して区別しています。
⚡ お急ぎの方のための3行結論
1️⃣ 字幕・議事録・ポッドキャスト等のバッチ処理 → Scribe v2 (独立系ベンチマークで精度トップクラス + $0.22/時間でOpenAIより安価)
2️⃣ リアルタイム大量ストリーミング・コールセンター → Deepgram Nova-3 (処理速度とストリーミング単価、同時接続数で優位)
3️⃣ データ主権・社内閉域網運用最優先 → Whisper自社ホスティング (MITライセンス、ただし話者分離は自前で実装が必要)
📖 本題の前に — 用語4つだけサクッと整理します ⚡
• STT = Speech-to-Text。音声をテキスト化する「自動文字起こしAI」です。
• WER = エラー率。100単語に対して何単語間違えたか — 数値が低いほど正確です。
• 話者分離 = 「誰がどの言葉を話したか」を自動識別する機能。議事録作成では必須です。
• 単語タイムスタンプ = 単語ごとに「何分何秒に出たか」の時間を付与すること — 字幕の同期合わせに不可欠です。
📊 1. 精度 — 独立系ベンチマークの結果
STT比較でよくある罠が「各社の広報資料だけを信じる」ことです。そこで、第三者ベンチマークであるArtificial AnalysisのAA-WER指数(2026年6月時点、低いほど高精度)を基準に見てみましょう。
モデル | AA-WER (低いほど正確) | 速度係数 |
|---|---|---|
ElevenLabs Scribe v2 | 2.2% (全体2位) | 34.0x |
OpenAI gpt-4o-transcribe | 4.0% | — |
OpenAI gpt-4o-mini-transcribe | 4.5% | — |
Deepgram Nova-3 | 5.2% | 504.4x (圧倒的1位) |
▲ 出典: Artificial Analysis Speech-to-Text リーダーボード (2026年6月時点)
まとめると、精度はScribe v2がOpenAI・Deepgramを凌駕しており、処理速度についてはDeepgramが別次元です。
1時間の音声をDeepgramは数秒、Scribe v2は約2分で処理するレベルの差とお考えください。
なお、ElevenLabsはScribe v2 Realtimeについて「欧州・アジア言語の平均93.5%の精度で、リアルタイムモデル中最低のWER」と発表していますが、これは自社ベンチマークである点にご留意ください。
💰 2. 価格 — 時間単位で換算すると
項目 | Scribe v2 | OpenAI | Deepgram Nova-3 |
|---|---|---|---|
バッチ文字起こし | $0.22/時間 | $0.36/時間 (gpt-4o-transcribe) | $0.46/時間 (単一言語) |
リアルタイム配信 | $0.39/時間 | Realtime APIトークン課金 (別途・高単価) | $0.29/時間 |
話者分離 | 基本込み | diarizeモデル $0.36/時間 | 基本込み |
無料体験 | 無料プラン 月間10,000クレジット | API無料枠なし | $200クレジット分 (カード不要・期限なし) |
▲ 出典: elevenlabs.io/pricing/api · developers.openai.com価格ドキュメント · deepgram.com/pricing (2026年6月確認)
重要なポイント3つ:
バッチ処理のコスパはScribe v2 — $0.22/時間はgpt-4o-transcribe($0.36)の約60%でありながら、精度は上回ります。Creatorプラン($22/月)にはバッチ100時間分が含まれます。
ストリーミング単価ならDeepgram — $0.29/時間(単一言語)で秒単位課金。従量課金(PAYG)でもWebSocket同時接続150まで対応しています。
Deepgramの$200分無料クレジットはNova-3で約433時間分相当。テストにコストを気にせず取り組めるのは圧倒的です。
🇯🇵 3. 日本語性能について — 率直に申し上げます
ここが本記事で最も重要なセクションかもしれません。結論:日本語のSTTに関しては、グローバルAPIはすでに最上位クラスの精度に到達しています。
ElevenLabsは公式の言語ティアにおいて、日本語を最上位の'Excellent Accuracy'等級(WER 5%以下)に分類しています。
英語・スペイン語・ドイツ語・フランス語など36言語が属する最上位グループに、日本語もしっかり含まれています(2026年6月時点の公式情報)。
なお、よく引用される「Scribe v1がFLEURSベンチマークで10.7%のWERを記録し、Whisper large-v3やDeepgram Nova-2を上回った」という数値は、ElevenLabsが公表した韓国語基準の結果です。日本語のスコアとしてそのまま受け取らないようご注意ください。日本語の具体的な数値は、各社の公式発表の最新データで確認するのが確実です。
同様に、Return Zero等による独立系ベンチマーク(CER 5.9〜7.5%)が話題になることもありますが、これは韓国語専用のローカルエンジンを評価したもので、日本語の性能比較には当てはまりません。ちなみに公式ティアでは韓国語は'Good'等級(WER 10〜20%)とされており、同じエンジンでも言語によって精度の差が大きいことがわかります。
日本語は'Excellent'ティアに属するため、グローバル3社をそのまま安心して比較検討して大丈夫です。
多言語コンテンツ制作(YouTubeグローバルチャンネル、吹替ワークフロー)でも、まずは自分の音声でA/Bテストしてみるのが一番確実です。⚡
🧰 4. 機能の差 — 字幕・議事録作成の決定打
話者分離: Scribe v2とDeepgramはAPIに標準搭載。オープンソースのWhisperには機能自体がないため、pyannote等の別ライブラリを組み合わせる必要があります。
OpenAIは2025年10月リリースのgpt-4o-transcribe-diarizeが追加料金なしで対応(最大4名まで)。単語単位のタイムスタンプ(字幕同期): Scribe v2が標準サポート。
OpenAIはレガシーなwhisper-1のみ対応しており、最新のgpt-4o-transcribe系列は非対応。字幕作成ワークフローではこれが思わぬ落とし穴となります。専門用語の補正: DeepgramのKeyterm Promptingは韓国語にも対応。ブランド名や医学用語など、固有名詞が多い録音で便利です。
🎯 5. 用途別最終レコメンド
用途 | 推奨 | 理由 |
|---|---|---|
YouTube字幕・ポッドキャスト・議事録 | Scribe v2 | 独立系ベンチマーク高精度 + 話者分離・単語タイムスタンプ標準搭載 + $0.22/時間 |
リアルタイムコールセンター・ライブ字幕 | Deepgram Nova-3 | 速度504倍・ストリーミング$0.29/時間・高並行性、$200無料枠 |
予算0円・社内網・データ主権 | Whisper自社ホスティング | MITライセンス無料。ただし話者分離は自作必須。GPUコストは自己負担 |
韓国語特化の大量文字起こし | 現地特化型APIと比較検討 | 独立ベンチマークで国内エンジン(CER 5.9~7.5%)がグローバルをリード |
⚠️ 6. それぞれの弱点も把握しておく
Scribe v2: 処理速度(34x)がDeepgram(504x)に比べて大きく劣る。
OpenAI: APIに無料枠がなく、最新モデルが単語タイムスタンプ非対応。リアルタイムはトークン課金のため、コスト予測が困難です。
Deepgram: 独立系ベンチマークの精度が3社中最も低い(5.2%)。韓国語対応も2026年にNova-3で追加されたばかりの後発です。
Whisper(オープンソース): 2024年10月のlarge-v3-turbo以降、新バージョンのリリースがありません。話者分離やインフラの管理は自社責任となります。
🚀 おわりに — 結論は「自分の音声でA/Bテスト」
ベンチマークはあくまで参考です。あなたの録音環境、口調、専門用語にどれが適しているかは、実際に動かしてみなければわかりません。
幸いにもElevenLabsの無料枠 + Deepgramの$200無料クレジットを使えば、コスト0で同一ファイルでの比較検証が可能です。
開発・連携が初めての方はVoice AI API 連携ガイドを、TTS APIの比較はElevenLabs vs Google TTS vs Amazon Polly 比較も併せてご覧ください。
ElevenLabs Lab でした。 ⚡