[Битва STT 2026] Кто лучший в распознавании речи? Сравнение ElevenLabs Scribe, Whisper и Deepgram!

Сравниваем ElevenLabs Scribe v2, OpenAI Whisper (GPT-4o) и Deepgram Nova-3 по точности, цене, качеству обработки корейского языка и диаризации на основе независимых тестов и актуальных прайс-листов июня 2026 года. Честный разбор победителей по сценариям использования и ограничениях в работе с корейским языком.

🎯 Что вы узнаете из этой статьи

• Независимый рейтинг точности STT-решений от 3 лидеров рынка (Artificial Analysis) по состоянию на июнь 2026 года.
• Сравнение стоимости за час: выбор оптимального API под ваши объемы задач.
Объективный взгляд на качество распознавания русской речи (с учетом особенностей локальных моделей).
• Критические различия в работе с диаризацией и таймстемпами для создания субтитров и транскриптов встреч.
• Итоговые рекомендации: что выбрать для продакшена субтитров, стриминга в реальном времени или self-hosted решений.

 

📌 Вступление

Привет! На связи команда ElevenLabs.

Многие привыкли ассоциировать ElevenLabs исключительно с TTS (синтезом речи), но после официального релиза Scribe v2 в январе 2026 года мы стали полноценным игроком на рынке распознавания речи (STT), составив конкуренцию OpenAI Whisper и Deepgram.
(Наш Scribe v2 Realtime для работы с потоковыми данными был представлен еще в ноябре 2025 года — подробности можно найти в нашем официальном блоге).

 

Если в нашей статье о Scribe мы рассматривали базовые концепции, то сегодня ответим на главный вопрос: «Что выбрать?», опираясь на независимые бенчмарки и актуальные прайс-листы. Все данные, предоставленные самими вендорами, мы пометили как «собственные тесты».

 

⚡ Коротко о главном (для тех, кто торопится)

1️⃣ Для субтитров, протоколов и подкастов (Batch)Scribe v2 (лидер по точности согласно независимым тестам + цена $0,22/час, что выгоднее OpenAI).
2️⃣ Для массового стриминга и колл-центровDeepgram Nova-3 (превосходство в скорости обработки, стоимости стриминга и пропускной способности).
3️⃣ Для нулевых затрат и суверенитета данныхWhisper (Self-hosted) (лицензия MIT, однако диаризацию придется настраивать самостоятельно).

 

 

📖 Прежде чем начать: разберемся с 4 терминами ⚡

STT = Speech-to-Text, «ИИ-стенографист», переводящий аудио в текст (незаменим для субтитров и расшифровки встреч).
WER = Уровень ошибок (Word Error Rate). Показывает процент неверно распознанных слов — чем ниже показатель, тем выше точность.
Диаризация = Автоматическое разделение речи по спикерам (кто именно говорит). Критически важно для протоколов встреч.
Таймстемпы слов = Привязка каждого слова к конкретной секунде аудио, необходима для точной синхронизации субтитров.

 

📊 1. Точность — что говорят независимые тесты

Самая большая ловушка при сравнении STT — смотреть только на графики самих разработчиков. Поэтому мы опираемся на индекс AA-WER от Artificial Analysis (июнь 2026 года, где меньшее значение означает более высокую точность).

 

Модель

AA-WER (ниже = лучше)

Коэффициент скорости

ElevenLabs Scribe v2

2,2% (2-е место в общем зачете)

34.0x

OpenAI gpt-4o-transcribe

4,0%

OpenAI gpt-4o-mini-transcribe

4,5%

Deepgram Nova-3

5,2%

504.4x (лидер по скорости)

▲ Источник: Лидерборд Speech-to-Text от Artificial Analysis (июнь 2026 г.)

 

Итог: по точности Scribe v2 превосходит OpenAI и Deepgram, однако скорость обработки у Deepgram (504x) является эталонной. Для понимания: часовое аудио Deepgram обрабатывает за считанные секунды, тогда как Scribe v2 — примерно за 2 минуты.

Напомним, что согласно нашим внутренним данным, Scribe v2 Realtime демонстрирует лучший показатель WER для 30 языков Европы и Азии (точность 93,5%). Пожалуйста, учитывайте, что это собственные бенчмарки.

 

💰 2. Цена — стоимость за час

Тип услуги

Scribe v2

OpenAI

Deepgram Nova-3

Batch (пакетная)

$0,22/час

$0,36/час (gpt-4o)
$0,18/час (mini)

$0,46/час (моноязык)

Стриминг (Live)

$0,39/час

Тарификация токенов Realtime API

$0,29/час

Диаризация

Включено

+$0,36/час

Включено

Пробный период

Бесплатный план (10к кредитов)

Бесплатного уровня API нет

Кредиты на $200

▲ Источники: elevenlabs.io/pricing, документация OpenAI и deepgram.com (июнь 2026 г.)

 

Три ключевых вывода:

  • Для пакетной обработки Scribe v2 выгоднее — $0,22/час, что на 40% дешевле gpt-4o-transcribe ($0,36) при более высокой точности. План Creator ($22/мес) включает 100 часов обработки.

  • Для стриминга выгоднее Deepgram — $0,29/час с посекундной тарификацией и поддержкой до 150 одновременных WebSocket-соединений.

  • Бонусные $200 от Deepgram (эквивалент ~433 часов для Nova-3) — самое щедрое предложение для тестирования на рынке.

 

🇷🇺 3. Поддержка русского языка — честный взгляд

Это, пожалуй, самый важный аспект для наших читателей. И здесь у нас хорошие новости: русский — один из сильнейших языков ElevenLabs Scribe.

 

По официальной классификации ElevenLabs (страница Speech-to-Text, проверено в июне 2026) русский язык входит в высшую категорию «Excellent Accuracy» (WER до 5%) — наравне с английским, немецким, французским, испанским, итальянским и польским. Всего в этой категории 36 языков.

Важное уточнение по цифрам, которые часто цитируют без контекста: результат 10,7% WER на бенчмарке FLEURS (Scribe v1) — это собственные данные ElevenLabs для корейского языка, который относится к категории «Good» (WER 10–20%). Переносить эту цифру на русский некорректно: официальная оценка точности для русского заметно выше.

 

Стоит отметить, что специализированные локальные движки могут опережать глобальные API за счет глубокой настройки под фонетику конкретного региона — но известные независимые бенчмарки такого рода (CER 5,9–7,5%) касаются именно корейского рынка, а не русского. Если ваша задача — транскрипция русскоязычного контента, «глобальная тройка» уже играет в категории Excellent. А для мультиязычных проектов (YouTube, дубляж) этот выбор тем более оправдан — и лучший аргумент здесь даст собственный A/B-тест на вашем материале.

 

🧰 4. Функционал для субтитров и протоколов

  • Диаризация: В Scribe v2 и Deepgram встроена в API. Для стандартного Whisper (open source) потребуется интеграция сторонних библиотек (например, pyannote). В OpenAI функция диаризации доступна за дополнительную плату.

  • Таймстемпы слов (синхронизация): Scribe v2 поддерживает «из коробки». В API OpenAI эта функция доступна ограниченно, что может стать сюрпризом при верстке субтитров.

  • Коррекция терминологии: Keyterm Prompting от Deepgram поддерживает русский язык — незаменимый инструмент для медицины или технических сфер.

 

Начать тестирование Scribe v2 →

 

🎯 5. Итоговые рекомендации

Задача

Выбор

Почему

YouTube, подкасты, протоколы

Scribe v2

Точность, встроенная диаризация, таймстемпы, цена $0,22/час.

Live-стриминг, колл-центры

Deepgram Nova-3

Скорость 504x, дешевый стриминг, приветственный бонус.

Zero-budget, self-hosted

Whisper (Open Source)

Лицензия MIT. Диаризацию и GPU-инфраструктуру нужно настраивать самостоятельно.

 

⚠️ 6. Минусы каждой системы

  • Scribe v2: Скорость обработки (34x) существенно ниже, чем у Deepgram (504x).

  • OpenAI: Отсутствие бесплатного уровня API, сложности с таймстемпами и непрогнозируемые расходы на Live-API.

  • Deepgram: Самая низкая точность по AA-WER (5,2%), позднее внедрение качественной поддержки русского языка.

  • Whisper (Open Source): Отсутствие крупных обновлений с октября 2024 года. Требует полноценной поддержки инфраструктуры.

 

🚀 В заключение — A/B тест решает всё

Любой бенчмарк — лишь справочная информация. Ваши реальные сценарии (уровень шума, акцент, профессиональные термины) могут давать иные результаты. К счастью, сочетание бесплатного плана ElevenLabs и бонуса от Deepgram позволяет сравнить оба решения на ваших данных практически без затрат.

Если вы новичок в интеграции API, изучите наш гайд по интеграции Voice AI, а для сравнения TTS — ElevenLabs vs Google TTS vs Amazon Polly.

 

Начать работу с ElevenLabs Scribe (бесплатно) →

 

Команда ElevenLabs. ⚡