[Битва STT 2026] Кто лучший в распознавании речи? Сравнение ElevenLabs Scribe, Whisper и Deepgram!

🎯 Что вы узнаете из этой статьи

• Независимый рейтинг точности STT-решений от 3 лидеров рынка (Artificial Analysis) по состоянию на июнь 2026 года.
• Сравнение стоимости за час: выбор оптимального API под ваши объемы задач.
• Объективный взгляд на качество распознавания русской речи (с учетом особенностей локальных моделей).
• Критические различия в работе с диаризацией и таймстемпами для создания субтитров и транскриптов встреч.
• Итоговые рекомендации: что выбрать для продакшена субтитров, стриминга в реальном времени или self-hosted решений.

📌 Вступление

Привет! На связи команда ElevenLabs.

Многие привыкли ассоциировать ElevenLabs исключительно с TTS (синтезом речи), но после официального релиза Scribe v2 в январе 2026 года мы стали полноценным игроком на рынке распознавания речи (STT), составив конкуренцию OpenAI Whisper и Deepgram.
(Наш Scribe v2 Realtime для работы с потоковыми данными был представлен еще в ноябре 2025 года — подробности можно найти в нашем официальном блоге).

Если в нашей статье о Scribe мы рассматривали базовые концепции, то сегодня ответим на главный вопрос: «Что выбрать?», опираясь на независимые бенчмарки и актуальные прайс-листы. Все данные, предоставленные самими вендорами, мы пометили как «собственные тесты».

⚡ Коротко о главном (для тех, кто торопится)

1️⃣ Для субтитров, протоколов и подкастов (Batch) → Scribe v2 (лидер по точности согласно независимым тестам + цена $0,22/час, что выгоднее OpenAI).
2️⃣ Для массового стриминга и колл-центров → Deepgram Nova-3 (превосходство в скорости обработки, стоимости стриминга и пропускной способности).
3️⃣ Для нулевых затрат и суверенитета данных → Whisper (Self-hosted) (лицензия MIT, однако диаризацию придется настраивать самостоятельно).

📖 Прежде чем начать: разберемся с 4 терминами ⚡
• STT = Speech-to-Text, «ИИ-стенографист», переводящий аудио в текст (незаменим для субтитров и расшифровки встреч).
• WER = Уровень ошибок (Word Error Rate). Показывает процент неверно распознанных слов — чем ниже показатель, тем выше точность.
• Диаризация = Автоматическое разделение речи по спикерам (кто именно говорит). Критически важно для протоколов встреч.
• Таймстемпы слов = Привязка каждого слова к конкретной секунде аудио, необходима для точной синхронизации субтитров.

📊 1. Точность — что говорят независимые тесты

Самая большая ловушка при сравнении STT — смотреть только на графики самих разработчиков. Поэтому мы опираемся на индекс AA-WER от Artificial Analysis (июнь 2026 года, где меньшее значение означает более высокую точность).

Модель	AA-WER (ниже = лучше)	Коэффициент скорости
ElevenLabs Scribe v2	2,2% (2-е место в общем зачете)	34.0x
OpenAI gpt-4o-transcribe	4,0%	—
OpenAI gpt-4o-mini-transcribe	4,5%	—
Deepgram Nova-3	5,2%	504.4x (лидер по скорости)

▲ Источник: Лидерборд Speech-to-Text от Artificial Analysis (июнь 2026 г.)

Итог: по точности Scribe v2 превосходит OpenAI и Deepgram, однако скорость обработки у Deepgram (504x) является эталонной. Для понимания: часовое аудио Deepgram обрабатывает за считанные секунды, тогда как Scribe v2 — примерно за 2 минуты.

Напомним, что согласно нашим внутренним данным, Scribe v2 Realtime демонстрирует лучший показатель WER для 30 языков Европы и Азии (точность 93,5%). Пожалуйста, учитывайте, что это собственные бенчмарки.

💰 2. Цена — стоимость за час

Тип услуги	Scribe v2	OpenAI	Deepgram Nova-3
Batch (пакетная)	$0,22/час	$0,36/час (gpt-4o) $0,18/час (mini)	$0,46/час (моноязык)
Стриминг (Live)	$0,39/час	Тарификация токенов Realtime API	$0,29/час
Диаризация	Включено	+$0,36/час	Включено
Пробный период	Бесплатный план (10к кредитов)	Бесплатного уровня API нет	Кредиты на $200

▲ Источники: elevenlabs.io/pricing, документация OpenAI и deepgram.com (июнь 2026 г.)

Три ключевых вывода:

Для пакетной обработки Scribe v2 выгоднее — $0,22/час, что на 40% дешевле gpt-4o-transcribe ($0,36) при более высокой точности. План Creator ($22/мес) включает 100 часов обработки.
Для стриминга выгоднее Deepgram — $0,29/час с посекундной тарификацией и поддержкой до 150 одновременных WebSocket-соединений.
Бонусные $200 от Deepgram (эквивалент ~433 часов для Nova-3) — самое щедрое предложение для тестирования на рынке.

🇷🇺 3. Поддержка русского языка — честный взгляд

Это, пожалуй, самый важный аспект для наших читателей. И здесь у нас хорошие новости: русский — один из сильнейших языков ElevenLabs Scribe.

По официальной классификации ElevenLabs (страница Speech-to-Text, проверено в июне 2026) русский язык входит в высшую категорию «Excellent Accuracy» (WER до 5%) — наравне с английским, немецким, французским, испанским, итальянским и польским. Всего в этой категории 36 языков.

Важное уточнение по цифрам, которые часто цитируют без контекста: результат 10,7% WER на бенчмарке FLEURS (Scribe v1) — это собственные данные ElevenLabs для корейского языка, который относится к категории «Good» (WER 10–20%). Переносить эту цифру на русский некорректно: официальная оценка точности для русского заметно выше.

Стоит отметить, что специализированные локальные движки могут опережать глобальные API за счет глубокой настройки под фонетику конкретного региона — но известные независимые бенчмарки такого рода (CER 5,9–7,5%) касаются именно корейского рынка, а не русского. Если ваша задача — транскрипция русскоязычного контента, «глобальная тройка» уже играет в категории Excellent. А для мультиязычных проектов (YouTube, дубляж) этот выбор тем более оправдан — и лучший аргумент здесь даст собственный A/B-тест на вашем материале.

🧰 4. Функционал для субтитров и протоколов

Диаризация: В Scribe v2 и Deepgram встроена в API. Для стандартного Whisper (open source) потребуется интеграция сторонних библиотек (например, pyannote). В OpenAI функция диаризации доступна за дополнительную плату.
Таймстемпы слов (синхронизация): Scribe v2 поддерживает «из коробки». В API OpenAI эта функция доступна ограниченно, что может стать сюрпризом при верстке субтитров.
Коррекция терминологии: Keyterm Prompting от Deepgram поддерживает русский язык — незаменимый инструмент для медицины или технических сфер.

Начать тестирование Scribe v2 →

🎯 5. Итоговые рекомендации

Задача	Выбор	Почему
YouTube, подкасты, протоколы	Scribe v2	Точность, встроенная диаризация, таймстемпы, цена $0,22/час.
Live-стриминг, колл-центры	Deepgram Nova-3	Скорость 504x, дешевый стриминг, приветственный бонус.
Zero-budget, self-hosted	Whisper (Open Source)	Лицензия MIT. Диаризацию и GPU-инфраструктуру нужно настраивать самостоятельно.

⚠️ 6. Минусы каждой системы

Scribe v2: Скорость обработки (34x) существенно ниже, чем у Deepgram (504x).
OpenAI: Отсутствие бесплатного уровня API, сложности с таймстемпами и непрогнозируемые расходы на Live-API.
Deepgram: Самая низкая точность по AA-WER (5,2%), позднее внедрение качественной поддержки русского языка.
Whisper (Open Source): Отсутствие крупных обновлений с октября 2024 года. Требует полноценной поддержки инфраструктуры.

🚀 В заключение — A/B тест решает всё

Любой бенчмарк — лишь справочная информация. Ваши реальные сценарии (уровень шума, акцент, профессиональные термины) могут давать иные результаты. К счастью, сочетание бесплатного плана ElevenLabs и бонуса от Deepgram позволяет сравнить оба решения на ваших данных практически без затрат.

Если вы новичок в интеграции API, изучите наш гайд по интеграции Voice AI, а для сравнения TTS — ElevenLabs vs Google TTS vs Amazon Polly.

Начать работу с ElevenLabs Scribe (бесплатно) →

Команда ElevenLabs. ⚡