[2026 STT Test] Qual è la migliore AI di trascrizione? Confronto tra ElevenLabs Scribe, Whisper e Deepgram

Confronto completo tra ElevenLabs Scribe v2, OpenAI Whisper (GPT-4o Transcribe) e Deepgram Nova-3. Analizziamo accuratezza, prezzi, prestazioni in italiano e diarizzazione dei parlanti basandoci su benchmark indipendenti di giugno 2026. Dalla scelta ideale per ogni caso d'uso ai limiti attuali della lingua italiana, ti offriamo una guida trasparente per scegliere il miglior software di trascrizione automatica per le tue esigenze.

🎯 Cosa scoprirai in questo articolo

• La classifica di precisione aggiornata dei 3 principali motori STT basata su benchmark indipendenti (Artificial Analysis) a giugno 2026.
• Confronto dei costi orari: quale API risulta più conveniente in base ai volumi di lavoro.
La realtà dell'accuratezza in lingua italiana (inclusi i modelli specializzati locali).
• Differenze cruciali nel workflow: diarizzazione del parlatore e timestamp a livello di parola.
• Consigli finali per caso d'uso: sottotitoli, streaming in tempo reale, self-hosting a costo zero.

 

📌 Introduzione

Ciao a tutti dal Laboratorio ElevenLabs!

Molti associano ElevenLabs principalmente al TTS (sintesi vocale), ma con il rilascio ufficiale di Scribe v2 (per trascrizioni batch) a gennaio 2026, abbiamo fatto il nostro ingresso nel mercato della trascrizione (STT), sfidando leader di settore come OpenAI Whisper e Deepgram.
(La versione Scribe v2 Realtime per lo streaming è disponibile da novembre 2025, come annunciato sul nostro blog ufficiale).

 

Se nel nostro precedente articolo introduttivo su Scribe abbiamo coperto i concetti base, oggi risponderemo alla domanda fondamentale: "Quale motore scegliere?" basandoci su benchmark indipendenti e listini prezzi ufficiali. I dati dichiarati dai singoli vendor sono segnalati come "benchmark interni" per distinguerli dalle prove esterne.

 

⚡ Il verdetto in 3 punti per chi ha fretta

1️⃣ Sottotitoli, trascrizioni di meeting, podcastScribe v2 (precisione al top nei benchmark indipendenti + più conveniente di OpenAI a $0,22/ora).
2️⃣ Streaming di massa, call centerDeepgram Nova-3 (vantaggio in latenza e costi per lo streaming).
3️⃣ Costi zero e sovranità dei datiWhisper in self-hosting (licenza MIT, ma richiede implementazione manuale della diarizzazione).

 

 

📖 Prima di iniziare: 4 termini chiave per orientarsi ⚡

STT = Speech-to-Text, l'AI che converte il parlato in testo scritto.
WER = Tasso di errore (Word Error Rate). Indica quante parole vengono trascritte erroneamente su 100 — più è basso, meglio è.
Diarizzazione = La capacità dell'AI di distinguere chi sta parlando in ogni momento, fondamentale per i verbali delle riunioni.
Timestamp a livello di parola = Associa a ogni parola il momento esatto in cui è stata pronunciata — essenziale per una sincronizzazione perfetta dei sottotitoli.

 

📊 1. Precisione: cosa dicono i benchmark indipendenti

L'errore più comune quando si confrontano sistemi STT è fare affidamento esclusivamente sui dati dichiarati dai produttori. Per questo abbiamo preso come riferimento l'indice AA-WER di Artificial Analysis (giugno 2026), che funge da arbitro imparziale (più il valore è basso, più il sistema è preciso).

 

Modello

AA-WER (basso = preciso)

Fattore Velocità

ElevenLabs Scribe v2

2,2% (2º posto globale)

34.0x

OpenAI gpt-4o-transcribe

4,0%

OpenAI gpt-4o-mini-transcribe

4,5%

Deepgram Nova-3

5,2%

504.4x (1º posto assoluto)

▲ Fonte: Artificial Analysis Speech-to-Text Leaderboard (giugno 2026)

 

In sintesi: Scribe v2 supera OpenAI e Deepgram in termini di precisione, mentre Deepgram eccelle nella velocità di elaborazione con un fattore di 504x.
Per rendere l'idea: un file audio di un'ora viene trascritto da Deepgram in una manciata di secondi, mentre a Scribe v2 ne occorrono circa due.

Ricordate: ElevenLabs riporta che Scribe v2 Realtime ha un WER medio del 93,5% su 30 lingue tra Europa e Asia, posizionandosi come leader nella trascrizione real-time, ma trattandosi di un benchmark interno, va considerato come tale.

 

💰 2. Prezzi: confronto orario

Voce

Scribe v2

OpenAI

Deepgram Nova-3

Trascrizione Batch

$0,22/ora

$0,36/ora (gpt-4o)
$0,18/ora (mini)

$0,46/ora

Streaming Real-time

$0,39/ora

Basato su token (più costoso)

$0,29/ora

Diarizzazione

Inclusa

Modello a parte ($0,36/ora)

Inclusa

Prova Gratuita

10.000 crediti/mese

Nessun piano API gratuito

$200 in crediti

▲ Fonte: Pagine ufficiali dei vendor (giugno 2026)

 

Tre punti chiave:

  • Convenienza Batch: Scribe v2 — a $0,22/ora, costa circa il 40% in meno rispetto a gpt-4o-transcribe, offrendo una precisione superiore. Il piano Creator include 100 ore di trascrizione mensili.

  • Costo Streaming: Deepgram — a $0,29/ora, offre fatturazione al secondo e supporta fino a 150 connessioni WebSocket simultanee.

  • Bonus Deepgram: I $200 di crediti gratuiti equivalgono a circa 433 ore di utilizzo con Nova-3, rendendo i test di integrazione estremamente accessibili.

 

🇮🇹 3. Prestazioni in italiano: siamo trasparenti

Questa è la parte cruciale, e per una volta possiamo dare una buona notizia senza riserve: l'italiano è una delle lingue meglio supportate dal motore di trascrizione di ElevenLabs.

 

ElevenLabs classifica ufficialmente la lingua italiana nella fascia 'Excellent Accuracy' (WER ≤5%), la categoria più alta in assoluto.
L'italiano si trova quindi nello stesso gruppo di inglese, francese, tedesco, spagnolo e giapponese (dato verificato sulla pagina ufficiale Speech-to-Text di ElevenLabs, giugno 2026).

Una precisazione doverosa, perché in rete circola spesso un numero fuori contesto: il WER del 10,7% sul benchmark FLEURS, pubblicato da ElevenLabs per Scribe v1, si riferisce al coreano, una lingua classificata nella fascia 'Good' (WER 10-20%). Attribuirlo all'italiano sarebbe un errore: per la nostra lingua la classificazione ufficiale indica un tasso di errore decisamente inferiore. ⚡

 

Detto questo, nessuna classificazione sostituisce una prova sui vostri file reali. In contesti con dialetti stretti, parlato sovrapposto o terminologie tecniche estremamente specifiche, motori specializzati possono ancora dire la loro, e vale la pena fare qualche test comparativo. Per workflow multilingue o progetti di portata globale, invece, le tre API citate rimangono le scelte più solide e scalabili.

 

🧰 4. Differenze funzionali: sottotitoli e verbali

  • Diarizzazione: Integrata nativamente in Scribe v2 e Deepgram. Whisper richiede librerie esterne come pyannote. OpenAI offre il modello gpt-4o-transcribe-diarize che gestisce fino a 4 speaker pre-registrati senza costi extra.

  • Timestamp a livello di parola: Supportato nativamente in Scribe v2. OpenAI lo offre solo con il modello legacy whisper-1; attenzione, poiché le versioni più recenti gpt-4o-transcribe non lo includono.

  • Personalizzazione (Keyterms): Il Keyterm Prompting di Deepgram supporta anche l'italiano, ideale per nomi di brand o gergo specialistico.

 

Prova il piano gratuito di Scribe v2 →

 

🎯 5. Raccomandazioni finali

Caso d'uso

Scelta ideale

Perché

Sottotitoli / Podcast

Scribe v2

Precisione al top, diarizzazione inclusa, ottimo rapporto qualità-prezzo ($0,22/ora)

Call center / Live

Deepgram Nova-3

Velocità 504x, scalabilità elevata, crediti gratuiti iniziali

On-premise (Privacy)

Whisper (Self-hosted)

Licenza MIT, controllo totale. Richiede gestione autonoma dell'infrastruttura GPU

 

⚠️ 6. Punti deboli da considerare

  • Scribe v2: La velocità (34x) è inferiore a Deepgram. Si consiglia un test diretto sul proprio volume di dati per ottimizzare i crediti.

  • OpenAI: Assenza di un piano gratuito, mancanza di timestamp sui modelli moderni, costi variabili meno prevedibili nello streaming.

  • Deepgram: Precisione nei benchmark esterni lievemente inferiore (5,2%), supporto della lingua italiana arrivato dopo rispetto ai leader del settore.

  • Whisper(OS): Nessun aggiornamento ufficiale da large-v3-turbo (ottobre 2024). Manutenzione interamente a carico dell'utente.

 

🚀 Conclusione: Il test A/B è la strada giusta

I benchmark sono utili, ma il vero banco di prova è l'audio che utilizzate quotidianamente (microfoni, accenti regionali, lessico tecnico). Fortunatamente, combinando il piano gratuito ElevenLabs e i $200 di crediti Deepgram, potete testare entrambi con i vostri file senza alcun investimento iniziale.

Se siete nuovi alle integrazioni, consultate la nostra Guida all'integrazione API, mentre per il TTS vi invitiamo a confrontarci con altre soluzioni come Google TTS o Amazon Polly.

 

Inizia con ElevenLabs Scribe (Gratis) →

 

Alla prossima dal Laboratorio ElevenLabs! ⚡