🎯 Что вы узнаете из этой статьи
• Независимый рейтинг точности STT-решений от 3 лидеров рынка (Artificial Analysis) по состоянию на июнь 2026 года.
• Сравнение стоимости за час: выбор оптимального API под ваши объемы задач.
• Объективный взгляд на качество распознавания русской речи (с учетом особенностей локальных моделей).
• Критические различия в работе с диаризацией и таймстемпами для создания субтитров и транскриптов встреч.
• Итоговые рекомендации: что выбрать для продакшена субтитров, стриминга в реальном времени или self-hosted решений.
📌 Вступление
Привет! На связи команда ElevenLabs.
Многие привыкли ассоциировать ElevenLabs исключительно с TTS (синтезом речи), но после официального релиза Scribe v2 в январе 2026 года мы стали полноценным игроком на рынке распознавания речи (STT), составив конкуренцию OpenAI Whisper и Deepgram.
(Наш Scribe v2 Realtime для работы с потоковыми данными был представлен еще в ноябре 2025 года — подробности можно найти в нашем официальном блоге).
Если в нашей статье о Scribe мы рассматривали базовые концепции, то сегодня ответим на главный вопрос: «Что выбрать?», опираясь на независимые бенчмарки и актуальные прайс-листы. Все данные, предоставленные самими вендорами, мы пометили как «собственные тесты».
⚡ Коротко о главном (для тех, кто торопится)
1️⃣ Для субтитров, протоколов и подкастов (Batch) → Scribe v2 (лидер по точности согласно независимым тестам + цена $0,22/час, что выгоднее OpenAI).
2️⃣ Для массового стриминга и колл-центров → Deepgram Nova-3 (превосходство в скорости обработки, стоимости стриминга и пропускной способности).
3️⃣ Для нулевых затрат и суверенитета данных → Whisper (Self-hosted) (лицензия MIT, однако диаризацию придется настраивать самостоятельно).
📖 Прежде чем начать: разберемся с 4 терминами ⚡
• STT = Speech-to-Text, «ИИ-стенографист», переводящий аудио в текст (незаменим для субтитров и расшифровки встреч).
• WER = Уровень ошибок (Word Error Rate). Показывает процент неверно распознанных слов — чем ниже показатель, тем выше точность.
• Диаризация = Автоматическое разделение речи по спикерам (кто именно говорит). Критически важно для протоколов встреч.
• Таймстемпы слов = Привязка каждого слова к конкретной секунде аудио, необходима для точной синхронизации субтитров.
📊 1. Точность — что говорят независимые тесты
Самая большая ловушка при сравнении STT — смотреть только на графики самих разработчиков. Поэтому мы опираемся на индекс AA-WER от Artificial Analysis (июнь 2026 года, где меньшее значение означает более высокую точность).
Модель | AA-WER (ниже = лучше) | Коэффициент скорости |
|---|---|---|
ElevenLabs Scribe v2 | 2,2% (2-е место в общем зачете) | 34.0x |
OpenAI gpt-4o-transcribe | 4,0% | — |
OpenAI gpt-4o-mini-transcribe | 4,5% | — |
Deepgram Nova-3 | 5,2% | 504.4x (лидер по скорости) |
▲ Источник: Лидерборд Speech-to-Text от Artificial Analysis (июнь 2026 г.)
Итог: по точности Scribe v2 превосходит OpenAI и Deepgram, однако скорость обработки у Deepgram (504x) является эталонной. Для понимания: часовое аудио Deepgram обрабатывает за считанные секунды, тогда как Scribe v2 — примерно за 2 минуты.
Напомним, что согласно нашим внутренним данным, Scribe v2 Realtime демонстрирует лучший показатель WER для 30 языков Европы и Азии (точность 93,5%). Пожалуйста, учитывайте, что это собственные бенчмарки.
💰 2. Цена — стоимость за час
Тип услуги | Scribe v2 | OpenAI | Deepgram Nova-3 |
|---|---|---|---|
Batch (пакетная) | $0,22/час | $0,36/час (gpt-4o) | $0,46/час (моноязык) |
Стриминг (Live) | $0,39/час | Тарификация токенов Realtime API | $0,29/час |
Диаризация | Включено | +$0,36/час | Включено |
Пробный период | Бесплатный план (10к кредитов) | Бесплатного уровня API нет | Кредиты на $200 |
▲ Источники: elevenlabs.io/pricing, документация OpenAI и deepgram.com (июнь 2026 г.)
Три ключевых вывода:
Для пакетной обработки Scribe v2 выгоднее — $0,22/час, что на 40% дешевле gpt-4o-transcribe ($0,36) при более высокой точности. План Creator ($22/мес) включает 100 часов обработки.
Для стриминга выгоднее Deepgram — $0,29/час с посекундной тарификацией и поддержкой до 150 одновременных WebSocket-соединений.
Бонусные $200 от Deepgram (эквивалент ~433 часов для Nova-3) — самое щедрое предложение для тестирования на рынке.
🇷🇺 3. Поддержка русского языка — честный взгляд
Это, пожалуй, самый важный аспект для наших читателей. И здесь у нас хорошие новости: русский — один из сильнейших языков ElevenLabs Scribe.
По официальной классификации ElevenLabs (страница Speech-to-Text, проверено в июне 2026) русский язык входит в высшую категорию «Excellent Accuracy» (WER до 5%) — наравне с английским, немецким, французским, испанским, итальянским и польским. Всего в этой категории 36 языков.
Важное уточнение по цифрам, которые часто цитируют без контекста: результат 10,7% WER на бенчмарке FLEURS (Scribe v1) — это собственные данные ElevenLabs для корейского языка, который относится к категории «Good» (WER 10–20%). Переносить эту цифру на русский некорректно: официальная оценка точности для русского заметно выше.
Стоит отметить, что специализированные локальные движки могут опережать глобальные API за счет глубокой настройки под фонетику конкретного региона — но известные независимые бенчмарки такого рода (CER 5,9–7,5%) касаются именно корейского рынка, а не русского. Если ваша задача — транскрипция русскоязычного контента, «глобальная тройка» уже играет в категории Excellent. А для мультиязычных проектов (YouTube, дубляж) этот выбор тем более оправдан — и лучший аргумент здесь даст собственный A/B-тест на вашем материале.
🧰 4. Функционал для субтитров и протоколов
Диаризация: В Scribe v2 и Deepgram встроена в API. Для стандартного Whisper (open source) потребуется интеграция сторонних библиотек (например, pyannote). В OpenAI функция диаризации доступна за дополнительную плату.
Таймстемпы слов (синхронизация): Scribe v2 поддерживает «из коробки». В API OpenAI эта функция доступна ограниченно, что может стать сюрпризом при верстке субтитров.
Коррекция терминологии: Keyterm Prompting от Deepgram поддерживает русский язык — незаменимый инструмент для медицины или технических сфер.
Начать тестирование Scribe v2 →
🎯 5. Итоговые рекомендации
Задача | Выбор | Почему |
|---|---|---|
YouTube, подкасты, протоколы | Scribe v2 | Точность, встроенная диаризация, таймстемпы, цена $0,22/час. |
Live-стриминг, колл-центры | Deepgram Nova-3 | Скорость 504x, дешевый стриминг, приветственный бонус. |
Zero-budget, self-hosted | Whisper (Open Source) | Лицензия MIT. Диаризацию и GPU-инфраструктуру нужно настраивать самостоятельно. |
⚠️ 6. Минусы каждой системы
Scribe v2: Скорость обработки (34x) существенно ниже, чем у Deepgram (504x).
OpenAI: Отсутствие бесплатного уровня API, сложности с таймстемпами и непрогнозируемые расходы на Live-API.
Deepgram: Самая низкая точность по AA-WER (5,2%), позднее внедрение качественной поддержки русского языка.
Whisper (Open Source): Отсутствие крупных обновлений с октября 2024 года. Требует полноценной поддержки инфраструктуры.
🚀 В заключение — A/B тест решает всё
Любой бенчмарк — лишь справочная информация. Ваши реальные сценарии (уровень шума, акцент, профессиональные термины) могут давать иные результаты. К счастью, сочетание бесплатного плана ElevenLabs и бонуса от Deepgram позволяет сравнить оба решения на ваших данных практически без затрат.
Если вы новичок в интеграции API, изучите наш гайд по интеграции Voice AI, а для сравнения TTS — ElevenLabs vs Google TTS vs Amazon Polly.
Начать работу с ElevenLabs Scribe (бесплатно) →
Команда ElevenLabs. ⚡