🎯 Lo que aprenderás en este artículo
• La clasificación real de precisión de los tres gigantes de STT, según el prestigioso benchmark independiente de **Artificial Analysis** (actualizado a junio de 2026)
• Comparativa de precios por hora: qué API es la más económica según tu volumen de trabajo
• **La cruda realidad sobre el rendimiento en español y otros idiomas** (y cuándo conviene recurrir a motores hiperlocales)
• Diarización de hablantes y marcas de tiempo por palabra: las diferencias clave que definen tu flujo de trabajo para subtítulos o actas de reunión
• Recomendaciones finales adaptadas a cada caso de uso: creación de subtítulos, streaming en tiempo real o autohospedaje a coste cero
📌 Introducción
Te damos la bienvenida a Elevenlabs Lab, tu espacio de referencia para exprimir al máximo la inteligencia artificial de voz.
Muchos asocian a ElevenLabs únicamente con la síntesis de voz (TTS). Sin embargo, tras el lanzamiento oficial de Scribe v2 (transcripción por lotes) en enero de 2026, la compañía ha entrado de lleno en el terreno del reconocimiento de voz (STT), compitiendo de tú a tú con gigantes consolidados como OpenAI Whisper y Deepgram.
(Por cierto, su versión para tiempo real, Scribe v2 Realtime, se presentó ligeramente antes, en noviembre de 2025, según los anuncios oficiales de la marca).
Si en nuestro artículo de introducción a Scribe analizamos los conceptos básicos, hoy iremos al grano para responder a la gran pregunta: «¿Cuál de estas tres opciones deberías elegir?». Nos basaremos en benchmarks independientes y en las tarifas oficiales vigentes para garantizar la máxima transparencia: cualquier dato proporcionado por los propios proveedores se indicará claramente como "test interno".
⚡ Resumen rápido: 3 claves para impacientes
1️⃣ Transcripción por lotes (subtítulos, actas, pódcasts) → Scribe v2 (la mayor precisión en benchmarks independientes y más económico que OpenAI, a tan solo 0,22 €/hora)
2️⃣ Streaming masivo en tiempo real y atención al cliente → Deepgram Nova-3 (líder indiscutible en velocidad de procesamiento, costes de streaming y gestión de conexiones concurrentes)
3️⃣ Presupuesto cero y soberanía absoluta de datos → Autohospedar Whisper (licencia libre MIT, aunque tendrás que implementar la diarización por tu cuenta)
📖 Glosario rápido: 4 conceptos clave antes de empezar ⚡
• STT = Speech-to-Text. El "dictado por IA" que convierte la voz en texto (esencial para actas de reuniones y subtítulos de YouTube).
• WER = Tasa de Error de Palabras (Word Error Rate). Mide el porcentaje de palabras erróneas por cada 100. Cuanto más bajo sea este valor, mayor será la precisión.
• Diarización = La capacidad de identificar y separar a los diferentes interlocutores en un audio («Hablante A dijo esto, Hablante B dijo aquello»). Crucial para actas de reuniones.
• Marcas de tiempo por palabra = Asignación del segundo exacto en el que se pronuncia cada término. Imprescindible para una sincronización perfecta de subtítulos.
📊 1. Precisión: Lo que revelan los benchmarks independientes
El error más común al comparar herramientas de STT es fiarse únicamente de los datos comerciales de cada empresa, ya que todas aseguran ser líderes del mercado. Para evitar sesgos, hemos recurrido al índice AA-WER de Artificial Analysis (datos actualizados a junio de 2026; recuerda que un porcentaje menor indica mayor precisión).
Modelo | AA-WER (Menor es mejor) | Factor de velocidad |
|---|---|---|
ElevenLabs Scribe v2 | 2,2% (2.º global) | 34,0x |
OpenAI gpt-4o-transcribe | 4,0% | — |
OpenAI gpt-4o-mini-transcribe | 4,5% | — |
Deepgram Nova-3 | 5,2% | 504,4x (Líder absoluto) |
▲ Fuente: Tabla de clasificación de Speech-to-Text de Artificial Analysis (datos de junio de 2026)
En resumen: Scribe v2 supera a OpenAI y Deepgram en precisión absoluta, pero Deepgram juega en otra liga en cuanto a velocidad de procesamiento (504,4x).
Para que te hagas una idea: Deepgram es capaz de procesar una hora de audio en apenas unos segundos, mientras que Scribe v2 tardará cerca de dos minutos.
Como apunte, ElevenLabs asegura que Scribe v2 Realtime alcanza una precisión media del 93,5 % en más de 30 idiomas europeos y asiáticos (lo que supondría el WER en tiempo real más bajo del sector), aunque conviene recordar que esta cifra procede de sus propios tests internos.
💰 2. Precios: Comparativa de coste por hora
Categoría | Scribe v2 | OpenAI | Deepgram Nova-3 |
|---|---|---|---|
Por lotes (Batch) | 0,22 €/hora | 0,36 €/hora (gpt-4o-transcribe) | 0,46 €/hora (un idioma) |
Tiempo real (Streaming) | 0,39 €/hora | Tarifa por tokens en Realtime API (muy elevada) | 0,29 €/hora |
Diarización | Incluida | Modelo diarize a 0,36 €/hora | Incluida |
Prueba gratuita | Plan gratuito de 10.000 créditos/mes | Sin nivel de API gratuito | 200 € en créditos (sin tarjeta, no caduca) |
▲ Fuentes: Tarifas oficiales de elevenlabs.io, OpenAI (developers) y deepgram.com (verificadas en junio de 2026)
Tres claves esenciales para entender las tarifas:
Scribe v2 lidera la relación calidad-precio por lotes: A solo 0,22 €/hora, cuesta casi un 40% menos que gpt-4o-transcribe (0,36 €) ofreciendo una precisión superior. De hecho, el plan Creator (22 €/mes) ya incluye unas 100 horas de transcripción por lotes.
Deepgram domina indiscutiblemente el streaming: Su tarifa de 0,29 €/hora (para un solo idioma) con facturación al segundo y capacidad para gestionar hasta 150 conexiones WebSocket simultáneas en su modelo de pago por uso (PAYG) no tiene rival.
La generosa bienvenida de Deepgram: Sus 200 € de saldo de bienvenida equivalen a unas 433 horas con su modelo Nova-3. Es, con diferencia, la mejor opción para realizar pruebas exhaustivas sin gastar un solo céntimo.
🇪🇸 3. Rendimiento lingüístico: Hablemos con total sinceridad
Llegamos al apartado más crítico. Directos al grano: los motores de STT globales ofrecen un rendimiento espectacular en español e inglés, pero su precisión puede fluctuar considerablemente en idiomas con menor volumen de datos.
Según la clasificación oficial de ElevenLabs Scribe, el español está en la categoría máxima ('Excellent Accuracy', con un WER igual o inferior al 5%), al mismo nivel que el inglés, el alemán, el francés, el italiano o el portugués. Otros idiomas quedan en escalones inferiores: el hindi y el chino mandarín figuran en 'High Accuracy' (WER del 5% al 10%), y el coreano, por ejemplo, en 'Good' (WER del 10% al 20%). La propia compañía lo reconoce con total transparencia: fuera del primer grupo todavía hay margen de mejora.
Un dato que ilustra muy bien estas diferencias: sobre el benchmark multilingüe de referencia FLEURS, ElevenLabs publicó un WER del 10,7% para Scribe v1, pero ojo: esa cifra corresponde al coreano, un idioma de la categoría 'Good'. No la extrapoles al español, que juega en la liga 'Excellent' con tasas de error muy inferiores.
Aun así, en idiomas con casuísticas muy particulares, los motores especializados de cada territorio siguen llevando la delantera. Sirva de nuevo el coreano como ejemplo: benchmarks independientes realizados en Corea sitúan a motores locales como ReturnZero o Naver Clova en tasas de error de caracteres (CER) de entre el 5,9% y el 7,5%, superando a los gigantes globales en su propio terreno. La prueba definitiva de que un corpus de entrenamiento hiperlocal marca la diferencia.
Esto nos deja una lección valiosa: si tu proyecto requiere transcribir grandes volúmenes de un dialecto muy concreto o un idioma fuera de la categoría 'Excellent', revisa a fondo las tablas oficiales de compatibilidad lingüística de cada proveedor o valora motores hiperespecializados.
Por el contrario, si tu flujo de trabajo principal es en español, inglés o creación de contenido multilingüe global (como doblajes automáticos o traducción de canales de YouTube), los tres titanes analizados en esta guía son, sin duda, tus mejores aliados. 😉
🧰 4. Diferencias de funciones clave para subtítulos y actas
Diarización de hablantes (identificación de voces): Scribe v2 y Deepgram la integran de forma nativa en sus APIs. En cambio, Whisper (en su vertiente de código abierto) carece de esta función de serie, lo que obliga a los desarrolladores a acoplar librerías externas como pyannote. Por su parte, la API de OpenAI empezó a dar soporte a la diarización a finales de 2025 con su modelo `gpt-4o-transcribe-diarize` (con un límite de hasta 4 hablantes pre-registrados).
Marcas de tiempo por palabra (sincronización de subtítulos): Scribe v2 ofrece soporte nativo inmediato. En el ecosistema de OpenAI, ten en cuenta que solo el modelo heredado whisper-1 ofrece esta función; los nuevos modelos `gpt-4o-transcribe` carecen de ella de forma nativa, un factor crítico si tu prioridad es generar subtítulos.
Corrección de términos específicos: La función «Keyterm Prompting» de Deepgram destaca al permitir "entrenar" temporalmente al sistema para reconocer con precisión nombres de marcas, jerga técnica o términos médicos complejos, asegurando transcripciones profesionales impecables.
Probar gratis Scribe v2 en su plan inicial →
🎯 5. Recomendación final según tu caso de uso
Caso de uso | Recomendación | Motivo principal |
|---|---|---|
Subtítulos de YouTube, pódcasts y actas de reuniones | Scribe v2 | Líder en precisión en benchmarks independientes + diarización nativa y marcas de tiempo por palabra por tan solo 0,22 €/hora. |
Atención al cliente telefónica en vivo o subtítulos en directo | Deepgram Nova-3 | Velocidad ultraeficiente de 504x, coste en tiempo real de 0,29 €/hora y 200 € de saldo de bienvenida sin caducidad. |
Presupuesto cero, entornos locales cerrados e intranet | Autohospedar Whisper | Licencia de código abierto MIT totalmente gratuita. Requiere implementar diarización propia y asumir costes de infraestructura GPU. |
Transcripción masiva de dialectos o idiomas hiperlocales | Evaluar motores locales especializados | En mercados muy específicos, los motores adaptados localmente siguen ofreciendo menor margen de error que las APIs generalistas de alcance global. |
⚠️ 6. Puntos débiles a tener en cuenta de cada opción
Scribe v2: Su velocidad de procesamiento (34x) se queda muy atrás frente a la de Deepgram (504x). Asimismo, la equivalencia exacta de horas de STT dentro de su suscripción gratuita no es del todo intuitiva en su web de precios, por lo que conviene vigilar el consumo de créditos al principio.
OpenAI: No cuenta con un nivel gratuito de pruebas para su API, sus modelos de última generación carecen de marcas de tiempo por palabra nativas y la tarificación por tokens en su API Realtime hace muy complejo estimar los costes mensuales con exactitud.
Deepgram: Presenta la tasa de error más alta en los benchmarks independientes (5,2% de WER) y la optimización de precisión para ciertos idiomas no anglófonos ha avanzado más despacio que en sus competidores.
Whisper (código abierto): No ha recibido actualizaciones de gran calado desde el lanzamiento de `large-v3-turbo` a finales de 2024. Además, todo el peso de la infraestructura, despliegue y mantenimiento técnico recae sobre el usuario.
🚀 Conclusión: Tu mejor aliado siempre será un test A/B propio
Las tablas y comparativas son excelentes hojas de ruta para empezar, pero el rendimiento real dependerá de las particularidades de tus audios (ruido de fondo, acentos regionales, tecnicismos o calidad de grabación).
La gran ventaja es que, combinando la suscripción gratuita de ElevenLabs con los 200 € de saldo de bienvenida de Deepgram, podrás realizar tests de rendimiento exhaustivos con tus propios archivos sin gastar un solo céntimo.
Si estás dando tus primeros pasos en la integración técnica de estas tecnologías, te invitamos a consultar nuestra Guía práctica de integración de APIs de voz con IA. Si deseas analizar más a fondo las soluciones para síntesis de voz, no te pierdas nuestra comparativa a fondo de TTS: ElevenLabs frente a Google Cloud TTS y Amazon Polly.
Comenzar gratis con ElevenLabs Scribe →
¡Nos vemos en la próxima entrega de Elevenlabs Lab! ⚡