🎯 O que você vai descobrir neste artigo
• Em junho de 2026, o ranking real de precisão das três principais ferramentas de STT segundo benchmarks independentes (Artificial Analysis)
• Comparação de preços por hora de áudio: qual API é mais econômica para o seu volume de demanda
• A realidade sobre o reconhecimento de voz em português (e as soluções locais especializadas)
• Diarização e timestamps por palavra: as diferenças cruciais no fluxo de trabalho de legendagem e transcrição de reuniões
• Recomendação final por caso de uso: Legendas / Streaming em tempo real / Self-hosting com custo zero
📌 Introdução
Olá! Aqui é a equipe da ElevenLabs.
Muitos ainda associam a ElevenLabs exclusivamente à tecnologia de TTS (síntese de voz). No entanto, com o lançamento oficial do Scribe v2 (transcrição em lote) em janeiro de 2026, entramos de vez na disputa direta com o OpenAI Whisper e o Deepgram no mercado de reconhecimento de voz (STT).
(A versão Scribe v2 Realtime foi lançada anteriormente, em novembro de 2025 — conforme anúncio oficial em nosso blog).
Se você já conferiu nossa introdução ao Scribe, hoje vamos responder à pergunta definitiva: "Qual deles devo escolher?", analisando benchmarks independentes e as tabelas de preços oficiais das plataformas. Os dados fornecidos pelas próprias empresas foram devidamente identificados no texto como 'benchmarks internos'.
⚡ Resumo para quem tem pressa:
1️⃣ Legendas, atas de reuniões e podcasts (em lote) → Scribe v2 (precisão máxima em benchmarks independentes + mais em conta que o modelo padrão da OpenAI, por apenas US$ 0,22/hora)
2️⃣ Streaming de alto volume e Call Centers → Deepgram Nova-3 (vantagem imbatível em velocidade de processamento, custo de streaming e suporte a conexões simultâneas)
3️⃣ Custo zero e controle total de dados → Whisper Self-hosted (licença MIT de código aberto, mas a diarização e a infraestrutura ficam por sua conta)
📖 Antes de começar: 4 termos essenciais ⚡
• STT = Speech-to-Text, a tecnologia de "ditado inteligente" que transforma fala em texto. É o que gera as legendas automáticas do YouTube e atas de reuniões.
• WER = Taxa de Erro de Palavras (Word Error Rate). Indica a proporção de palavras transcritas incorretamente — quanto menor a taxa, mais precisa é a ferramenta.
• Diarização = A capacidade de identificar quem está falando a cada momento (ex: "Palestrante A disse isso", "Cliente B respondeu aquilo"). Recurso indispensável para atas de reuniões.
• Timestamps por palavra = Indica o segundo exato em que cada palavra foi dita, algo essencial para sincronizar legendas sem atraso.
📊 1. Precisão — O que dizem os benchmarks independentes
O maior erro ao comparar ferramentas de STT é confiar cegamente no material de marketing de cada fabricante.
Como todas afirmam ser a "número 1", decidimos analisar o índice AA-WER da Artificial Analysis (dados de junho de 2026; lembrando que quanto menor a porcentagem, melhor).
Modelo | AA-WER (menor é melhor) | Coeficiente de Velocidade |
|---|---|---|
ElevenLabs Scribe v2 | 2,2% (Top-tier no ranking geral) | 34,0x |
OpenAI gpt-4o-transcribe | 4,0% | — |
OpenAI gpt-4o-mini-transcribe | 4,5% | — |
Deepgram Nova-3 | 5,2% | 504,4x (Líder em velocidade) |
▲ Fonte: Leaderboard de Speech-to-Text da Artificial Analysis (verificado em junho de 2026)
Em resumo: a precisão do Scribe v2 supera a da OpenAI e a do Deepgram, enquanto a velocidade de processamento do Deepgram (504,4x) opera em outra categoria.
Para transcrever uma hora de áudio, o Deepgram resolve em poucos segundos, enquanto o Scribe v2 leva cerca de dois minutos.
Vale destacar que, segundo dados da própria ElevenLabs, o Scribe v2 Realtime entrega uma "precisão média de 93,5% em 30 idiomas da Europa e Ásia, registrando o menor WER da categoria em tempo real". Lembre-se de que este é um benchmark interno.
💰 2. Preço — Comparativo por hora
Categoria | Scribe v2 | OpenAI | Deepgram Nova-3 |
|---|---|---|---|
Transcrição em Lote | US$ 0,22/hora | US$ 0,36/hora (gpt-4o-transcribe) | US$ 0,46/hora (idioma único) |
Streaming em Tempo Real | US$ 0,39/hora | Cobrança por tokens (Realtime API — custo elevado) | US$ 0,29/hora |
Diarização | Incluído | Modelo diarize: US$ 0,36/hora | Incluído |
Teste Gratuito | Plano grátis com 10.000 créditos/mês | Sem plano gratuito na API | US$ 200 em créditos (sem exigência de cartão ou expiração) |
▲ Fonte: elevenlabs.io/pricing/api · Documentação de preços de developers.openai.com · deepgram.com/pricing (junho de 2026)
Três pontos-chave:
Melhor custo-benefício em lote: Scribe v2 — Cobrar US$ 0,22/hora representa cerca de 60% do valor do gpt-4o-transcribe (US$ 0,36), entregando uma precisão superior. Além disso, o plano Creator (US$ 22/mês) já oferece créditos equivalentes a 100 horas de processamento em lote.
Melhor preço para streaming em tempo real: Deepgram — Por apenas US$ 0,29/hora (para idioma único), com tarifação por segundo e suporte robusto a até 150 conexões WebSocket simultâneas.
Excelente incentivo de entrada: Deepgram — Os US$ 200 em créditos gratuitos oferecidos pela empresa cobrem cerca de 433 horas de processamento no modelo Nova-3, configurando a melhor oferta de testes do mercado atual.
🇧🇷 3. Desempenho em Português — Falando a verdade
Esta é a seção mais importante deste artigo. E, para variar, falar a verdade aqui significa dar uma ótima notícia: o português está no grupo de elite dos idiomas mais bem reconhecidos pelas grandes APIs globais.
A ElevenLabs classifica o português no nível 'Excellent Accuracy' (taxa de erro WER ≤ 5%) na página oficial do Scribe.
É o mesmo patamar de inglês, espanhol, francês, alemão, italiano e japonês — ou seja, o nosso idioma é tratado como cidadão de primeira classe.
Um cuidado importante com números que circulam por aí: o famoso WER de 10,7% no dataset FLEURS (medido no Scribe v1 e divulgado pela própria ElevenLabs) refere-se ao coreano, um idioma do nível 'Good' (WER entre 10% e 20%). Esse número não diz nada sobre o desempenho em português — portanto, não o use como referência para o nosso idioma.
Sendo totalmente transparentes: benchmarks independentes com datasets brasileiros, publicados especificamente para os modelos mais recentes dessas três APIs, ainda são raros — os comparativos independentes que citamos no artigo original (CER entre 5,9% e 7,5%) avaliaram engines locais para o coreano, e não se aplicam aqui. A melhor validação continua sendo rodar um teste com áudio real do seu próprio projeto.
Na prática, se o seu foco é a transcrição em português brasileiro, você já parte do melhor cenário possível.
E se o seu projeto envolve conteúdo multilíngue (canais globais no YouTube, fluxos de dublagem ou foco primário em inglês), a vantagem se mantém: o português convive no mesmo nível de precisão dos idiomas mais fortes do catálogo.
🧰 4. Diferenças funcionais — O que importa para legendagem
Diarização (identificação de quem fala): O Scribe v2 e o Deepgram oferecem essa funcionalidade de forma nativa e integrada em suas APIs. Já o Whisper de código aberto não conta com isso de fábrica, exigindo bibliotecas de terceiros como o `pyannote`. A API da OpenAI disponibiliza o `gpt-4o-transcribe-diarize`, que reconhece até 4 locutores previamente identificados sem custo adicional.
Timestamps por palavra (sincronização de legendas): O Scribe v2 oferece suporte nativo impecável. Já na API da OpenAI, você precisará recorrer ao modelo legado `whisper-1`, pois a nova família `gpt-4o-transcribe` não entrega essa função nativamente — o que pode ser uma surpresa desagradável no meio do seu fluxo de legendagem.
Correção de termos técnicos (Prompting): O recurso de Keyterm Prompting do Deepgram já está totalmente operacional para o português, o que é de grande ajuda para garantir a grafia correta de nomes de marcas, jargões jurídicos ou termos médicos específicos.
Experimentar o Scribe v2 Grátis →
🎯 5. Recomendação final por caso de uso
Caso de Uso | Recomendação | Por quê? |
|---|---|---|
Legendas YouTube, Podcasts, Atas | Scribe v2 | Precisão máxima, suporte nativo a diarização e timestamps por US$ 0,22/hora |
Call Center, Lives, Alto volume | Deepgram Nova-3 | Velocidade incomparável (504x), custo de US$ 0,29/hora e US$ 200 em bônus |
Custo zero, On-premise, Soberania | Whisper Self-hosted | Licença open-source MIT. Requer gestão própria de infraestrutura de GPU e diarização |
Grande escala em Português puro | Compare com soluções locais | Soluções locais especializadas costumam entregar maior acurácia (menor taxa de erro) em datasets regionais |
⚠️ 6. Fraquezas de cada um
Scribe v2: A velocidade de processamento (34x) é muito inferior à do Deepgram (504x). Além disso, a conversão de créditos da plataforma para horas reais de áudio pode sofrer variações dependendo do plano, por isso vale testar antes de rodar volumes massivos.
OpenAI: Não há plano gratuito de testes para uso via API, os modelos mais modernos carecem de suporte nativo a timestamps por palavra e o modelo de precificação por tokens para streaming em tempo real (Realtime API) pode gerar custos imprevisíveis.
Deepgram: Apresentou a menor precisão entre os três em testes independentes (WER de 5,2%). Além disso, a empresa historicamente demorou mais para amadurecer o suporte robusto ao português.
Whisper (Código Aberto): Sem atualizações significativas de arquitetura desde o lançamento do modelo `large-v3-turbo` no fim de 2024. Toda a dor de cabeça com gerenciamento de servidores, escalabilidade de GPUs e implementação de diarização fica sob sua inteira responsabilidade.
🚀 Conclusão — O segredo é fazer um teste A/B
Benchmarks funcionam apenas como um norte. O seu tipo de áudio real — influenciado por ruídos de gravação, sotaques regionais ou termos técnicos do seu nicho — é o que ditará o resultado prático. Felizmente, aproveitando o plano gratuito da ElevenLabs e os US$ 200 em créditos do Deepgram, você consegue realizar testes comparativos completos com seus próprios arquivos de áudio sem investir um centavo.
Se você está dando os primeiros passos no desenvolvimento ou integração de APIs, vale a pena dar uma olhada no nosso Guia de Integração de Voz com IA. Para ver um comparativo focado em síntese de voz (TTS), confira também o nosso artigo ElevenLabs vs. Google TTS vs. Amazon Polly.
Comece a usar o ElevenLabs Scribe (Grátis) →
Equipe ElevenLabs. ⚡