[STT Paris 2026] Quel est le meilleur AI de transcription ? Duel ElevenLabs vs Whisper vs Deepgram

🎯 Ce que vous allez découvrir dans cet article

• Classement réel de précision des 3 leaders du STT selon le benchmark indépendant (Artificial Analysis) en juin 2026.
• Comparatif tarifaire horaire — quel modèle est le plus rentable selon votre volume de traitement ?
• La réalité objective sur les performances en coréen (incluant les moteurs spécialisés locaux).
• Diarisation et horodatage au mot près — les différences cruciales pour vos workflows de sous-titrage et de compte-rendu.
• Recommandations par usage : production de sous-titres / streaming en direct / auto-hébergement à coût zéro.

📌 Introduction

Bonjour à tous, ici le Labo ElevenLabs.

Beaucoup associent ElevenLabs uniquement à la synthèse vocale (TTS), mais depuis le lancement officiel de Scribe v2 (transcription par lots) en janvier 2026, nous sommes désormais en compétition directe sur le marché de la reconnaissance vocale (STT) avec OpenAI Whisper et Deepgram.
(La version Scribe v2 Realtime pour le direct est disponible depuis novembre 2025).

Si notre article de présentation de Scribe couvrait les concepts de base, nous répondons aujourd'hui à la question : "Lequel choisir parmi ces trois ?" en nous appuyant sur des benchmarks indépendants et les grilles tarifaires officielles. Les chiffres avancés par les fournisseurs eux-mêmes sont explicitement signalés comme « benchmarks internes ».

⚡ Le résumé en 3 points pour les pressés

1️⃣ Sous-titres, comptes-rendus, podcasts (traitement par lots) → Scribe v2 (Précision au sommet selon les benchmarks indépendants + plus économique qu'OpenAI à 0,22 € / heure).
2️⃣ Streaming massif, centres d'appels → Deepgram Nova-3 (Avantage sur la vitesse de traitement, le coût du flux et la simultanéité).
3️⃣ Coût zéro et souveraineté des données → Whisper auto-hébergé (Licence MIT, mais la diarisation doit être développée par vos soins).

📖 Avant de commencer — 4 termes techniques à clarifier ⚡
• STT = Speech-to-Text, l'IA qui transforme la parole en texte. (Indispensable pour les comptes-rendus et les sous-titres).
• WER = Word Error Rate (taux d'erreur de mot). Sur 100 mots dictés, combien sont erronés ? Plus le chiffre est bas, meilleure est la précision.
• Diarisation = La capacité à identifier qui parle : "A a dit ceci", "B a dit cela". Crucial pour les réunions.
• Horodatage au mot près = Associer chaque mot à son temps précis (ex: 14h30min05s). Indispensable pour une synchronisation parfaite.

📊 1. Précision — Ce que disent les benchmarks indépendants

Le piège classique dans les comparatifs STT consiste à se fier uniquement aux données publiées par les éditeurs, qui prétendent tous être les meilleurs. Nous nous sommes donc basés sur l'indice AA-WER d'Artificial Analysis (données de juin 2026, plus le score est bas, plus la précision est élevée).

Modèle	AA-WER (précision)	Vitesse
ElevenLabs Scribe v2	2,2 % (2ème mondial)	34,0x
OpenAI gpt-4o-transcribe	4,0 %	—
OpenAI gpt-4o-mini-transcribe	4,5 %	—
Deepgram Nova-3	5,2 %	504,4x (1er mondial)

▲ Source : Classement Artificial Analysis Speech-to-Text (Juin 2026)

En résumé : Scribe v2 surpasse OpenAI et Deepgram en précision, tandis que la vitesse de traitement de Deepgram (504x) reste inégalée. Concrètement, une heure d'audio est traitée en quelques secondes par Deepgram, et en environ 2 minutes par Scribe v2.

Pour rappel, ElevenLabs a annoncé que Scribe v2 Realtime affiche un WER moyen de 6,5 % sur 30 langues, ce qui en fait l'un des modèles temps réel les plus précis. Gardez toutefois à l'esprit qu'il s'agit d'un benchmark interne.

💰 2. Prix — Comparaison au tarif horaire

Catégorie	Scribe v2	OpenAI	Deepgram Nova-3
Batch (par lots)	0,22 € / h	0,36 € / h (gpt-4o) 0,18 € / h (mini)	0,46 € / h (monolangue)
Streaming	0,39 € / h	Facturation API (variable)	0,29 € / h
Diarisation	Incluse	Modèle diarize 0,36 € / h	Incluse
Essai gratuit	10 000 crédits / mois	Aucun palier gratuit API	200 $ de crédit

▲ Source : elevenlabs.io · openai.com · deepgram.com (Juin 2026)

Trois points clés :

Rentabilité Batch = Scribe v2 — À 0,22 € / heure, nous sommes 40 % moins chers que gpt-4o-transcribe (0,36 €) tout en offrant une meilleure précision. Le plan Creator (22 € / mois) inclut 100 heures de traitement.
Prix streaming = Deepgram — Facturation à la seconde dès 0,29 € / heure, supportant jusqu'à 150 connexions WebSocket simultanées.
Crédits d'essai : Les 200 $ de crédit offerts par Deepgram permettent de tester environ 433 heures de transcription, rendant les tests initiaux quasiment gratuits.

🇰🇷 3. Performances sur le coréen — La transparence avant tout

Bonne nouvelle d'abord : le français figure dans le niveau 'Excellent Accuracy' (WER ≤ 5 %) de Scribe, aux côtés de l'anglais, de l'allemand, de l'espagnol ou de l'italien. Mais toutes les langues ne sont pas logées à la même enseigne, et le coréen illustre bien la transparence d'ElevenLabs sur le sujet.

Sur sa page officielle Speech-to-Text, ElevenLabs classe le coréen dans le niveau 'Good' (WER 10~20 %) — soit deux crans en dessous du niveau 'Excellent' (WER inférieur à 5 %) où se trouvent le français ou l'anglais, le niveau intermédiaire 'High Accuracy' (WER 5~10 %) regroupant des langues comme le hindi ou le mandarin.

Côté chiffres : selon les données publiées par ElevenLabs elle-même, Scribe v1 affiche un WER de 10,7 % sur le coréen dans le benchmark FLEURS. Ce chiffre concerne donc le coréen, pas le français — pour notre langue, classée 'Excellent', les performances attendues sont nettement meilleures.

Soyons honnêtes : sur des benchmarks indépendants dédiés au coréen, des moteurs locaux comme Return Zero ou Naver CLOVA affichent un CER de 5,9 à 7,5 %, devant les acteurs mondiaux. Si votre activité est exclusivement centrée sur le marché coréen, comparer avec ces solutions locales est pertinent. En revanche, pour du contenu multilingue ou des déploiements internationaux — le cas de la plupart d'entre nous —, les trois géants mondiaux restent le standard. Il vaut mieux être franc sur les capacités réelles des outils que de promettre l'impossible. 😅

🧰 4. Fonctionnalités — Les détails qui changent tout

Diarisation : Scribe v2 et Deepgram l'intègrent nativement. Whisper open-source nécessite des bibliothèques externes comme pyannote.
Horodatage au mot près : Supporté par défaut sur Scribe v2. OpenAI a retiré ce support sur ses modèles récents, ce qui complique la tâche des sous-titreurs.
Glossaires/Mots-clés : La fonctionnalité de Keyterm Prompting de Deepgram aide à identifier les noms de marques ou termes techniques complexes.

Tester le plan gratuit Scribe v2 →

🎯 5. Recommandations finales

Usage	Recommandation	Pourquoi
Sous-titres, Podcasts, Réunions	Scribe v2	Meilleure précision, diarisation/horodatage inclus, tarif compétitif
Centres d'appels, Live	Deepgram Nova-3	Vitesse 504x, coût optimisé, crédits offerts
Zéro budget, auto-hébergement	Whisper (Open source)	Gratuit, souveraineté totale. Infrastructure GPU et diarisation à votre charge

⚠️ 6. Les points faibles à surveiller

Scribe v2 : Vitesse de traitement inférieure à Deepgram. Évaluez vos volumes avant de passer à l'échelle.
OpenAI : Pas de palier gratuit, modèles récents sans horodatage mot par mot, coût difficile à anticiper.
Deepgram : Précision globale inférieure (5,2 %) et support coréen plus récent.
Whisper : Pas de mise à jour majeure depuis octobre 2024. Gestion d'infrastructure lourde.

🚀 Conclusion — Faites vos propres tests A/B

Les benchmarks ne sont que des repères. La qualité dépendra de votre environnement audio, du débit de parole et du jargon utilisé. Profitez du plan gratuit d'ElevenLabs et des 200 $ de crédit Deepgram pour comparer les résultats sur vos propres fichiers.

Si vous débutez, consultez notre Guide d'intégration API. Pour le TTS, comparez avec notre article ElevenLabs vs Google TTS vs Amazon Polly.

Commencer avec Scribe v2 (Gratuit) →

Votre équipe du Labo ElevenLabs. ⚡