🎯 Cosa scoprirai in questo articolo
• La classifica di precisione aggiornata dei 3 principali motori STT basata su benchmark indipendenti (Artificial Analysis) a giugno 2026.
• Confronto dei costi orari: quale API risulta più conveniente in base ai volumi di lavoro.
• La realtà dell'accuratezza in lingua italiana (inclusi i modelli specializzati locali).
• Differenze cruciali nel workflow: diarizzazione del parlatore e timestamp a livello di parola.
• Consigli finali per caso d'uso: sottotitoli, streaming in tempo reale, self-hosting a costo zero.
📌 Introduzione
Ciao a tutti dal Laboratorio ElevenLabs!
Molti associano ElevenLabs principalmente al TTS (sintesi vocale), ma con il rilascio ufficiale di Scribe v2 (per trascrizioni batch) a gennaio 2026, abbiamo fatto il nostro ingresso nel mercato della trascrizione (STT), sfidando leader di settore come OpenAI Whisper e Deepgram.
(La versione Scribe v2 Realtime per lo streaming è disponibile da novembre 2025, come annunciato sul nostro blog ufficiale).
Se nel nostro precedente articolo introduttivo su Scribe abbiamo coperto i concetti base, oggi risponderemo alla domanda fondamentale: "Quale motore scegliere?" basandoci su benchmark indipendenti e listini prezzi ufficiali. I dati dichiarati dai singoli vendor sono segnalati come "benchmark interni" per distinguerli dalle prove esterne.
⚡ Il verdetto in 3 punti per chi ha fretta
1️⃣ Sottotitoli, trascrizioni di meeting, podcast → Scribe v2 (precisione al top nei benchmark indipendenti + più conveniente di OpenAI a $0,22/ora).
2️⃣ Streaming di massa, call center → Deepgram Nova-3 (vantaggio in latenza e costi per lo streaming).
3️⃣ Costi zero e sovranità dei dati → Whisper in self-hosting (licenza MIT, ma richiede implementazione manuale della diarizzazione).
📖 Prima di iniziare: 4 termini chiave per orientarsi ⚡
• STT = Speech-to-Text, l'AI che converte il parlato in testo scritto.
• WER = Tasso di errore (Word Error Rate). Indica quante parole vengono trascritte erroneamente su 100 — più è basso, meglio è.
• Diarizzazione = La capacità dell'AI di distinguere chi sta parlando in ogni momento, fondamentale per i verbali delle riunioni.
• Timestamp a livello di parola = Associa a ogni parola il momento esatto in cui è stata pronunciata — essenziale per una sincronizzazione perfetta dei sottotitoli.
📊 1. Precisione: cosa dicono i benchmark indipendenti
L'errore più comune quando si confrontano sistemi STT è fare affidamento esclusivamente sui dati dichiarati dai produttori. Per questo abbiamo preso come riferimento l'indice AA-WER di Artificial Analysis (giugno 2026), che funge da arbitro imparziale (più il valore è basso, più il sistema è preciso).
Modello | AA-WER (basso = preciso) | Fattore Velocità |
|---|---|---|
ElevenLabs Scribe v2 | 2,2% (2º posto globale) | 34.0x |
OpenAI gpt-4o-transcribe | 4,0% | — |
OpenAI gpt-4o-mini-transcribe | 4,5% | — |
Deepgram Nova-3 | 5,2% | 504.4x (1º posto assoluto) |
▲ Fonte: Artificial Analysis Speech-to-Text Leaderboard (giugno 2026)
In sintesi: Scribe v2 supera OpenAI e Deepgram in termini di precisione, mentre Deepgram eccelle nella velocità di elaborazione con un fattore di 504x.
Per rendere l'idea: un file audio di un'ora viene trascritto da Deepgram in una manciata di secondi, mentre a Scribe v2 ne occorrono circa due.
Ricordate: ElevenLabs riporta che Scribe v2 Realtime ha un WER medio del 93,5% su 30 lingue tra Europa e Asia, posizionandosi come leader nella trascrizione real-time, ma trattandosi di un benchmark interno, va considerato come tale.
💰 2. Prezzi: confronto orario
Voce | Scribe v2 | OpenAI | Deepgram Nova-3 |
|---|---|---|---|
Trascrizione Batch | $0,22/ora | $0,36/ora (gpt-4o) | $0,46/ora |
Streaming Real-time | $0,39/ora | Basato su token (più costoso) | $0,29/ora |
Diarizzazione | Inclusa | Modello a parte ($0,36/ora) | Inclusa |
Prova Gratuita | 10.000 crediti/mese | Nessun piano API gratuito | $200 in crediti |
▲ Fonte: Pagine ufficiali dei vendor (giugno 2026)
Tre punti chiave:
Convenienza Batch: Scribe v2 — a $0,22/ora, costa circa il 40% in meno rispetto a gpt-4o-transcribe, offrendo una precisione superiore. Il piano Creator include 100 ore di trascrizione mensili.
Costo Streaming: Deepgram — a $0,29/ora, offre fatturazione al secondo e supporta fino a 150 connessioni WebSocket simultanee.
Bonus Deepgram: I $200 di crediti gratuiti equivalgono a circa 433 ore di utilizzo con Nova-3, rendendo i test di integrazione estremamente accessibili.
🇮🇹 3. Prestazioni in italiano: siamo trasparenti
Questa è la parte cruciale, e per una volta possiamo dare una buona notizia senza riserve: l'italiano è una delle lingue meglio supportate dal motore di trascrizione di ElevenLabs.
ElevenLabs classifica ufficialmente la lingua italiana nella fascia 'Excellent Accuracy' (WER ≤5%), la categoria più alta in assoluto.
L'italiano si trova quindi nello stesso gruppo di inglese, francese, tedesco, spagnolo e giapponese (dato verificato sulla pagina ufficiale Speech-to-Text di ElevenLabs, giugno 2026).
Una precisazione doverosa, perché in rete circola spesso un numero fuori contesto: il WER del 10,7% sul benchmark FLEURS, pubblicato da ElevenLabs per Scribe v1, si riferisce al coreano, una lingua classificata nella fascia 'Good' (WER 10-20%). Attribuirlo all'italiano sarebbe un errore: per la nostra lingua la classificazione ufficiale indica un tasso di errore decisamente inferiore. ⚡
Detto questo, nessuna classificazione sostituisce una prova sui vostri file reali. In contesti con dialetti stretti, parlato sovrapposto o terminologie tecniche estremamente specifiche, motori specializzati possono ancora dire la loro, e vale la pena fare qualche test comparativo. Per workflow multilingue o progetti di portata globale, invece, le tre API citate rimangono le scelte più solide e scalabili.
🧰 4. Differenze funzionali: sottotitoli e verbali
Diarizzazione: Integrata nativamente in Scribe v2 e Deepgram. Whisper richiede librerie esterne come pyannote. OpenAI offre il modello gpt-4o-transcribe-diarize che gestisce fino a 4 speaker pre-registrati senza costi extra.
Timestamp a livello di parola: Supportato nativamente in Scribe v2. OpenAI lo offre solo con il modello legacy whisper-1; attenzione, poiché le versioni più recenti gpt-4o-transcribe non lo includono.
Personalizzazione (Keyterms): Il Keyterm Prompting di Deepgram supporta anche l'italiano, ideale per nomi di brand o gergo specialistico.
Prova il piano gratuito di Scribe v2 →
🎯 5. Raccomandazioni finali
Caso d'uso | Scelta ideale | Perché |
|---|---|---|
Sottotitoli / Podcast | Scribe v2 | Precisione al top, diarizzazione inclusa, ottimo rapporto qualità-prezzo ($0,22/ora) |
Call center / Live | Deepgram Nova-3 | Velocità 504x, scalabilità elevata, crediti gratuiti iniziali |
On-premise (Privacy) | Whisper (Self-hosted) | Licenza MIT, controllo totale. Richiede gestione autonoma dell'infrastruttura GPU |
⚠️ 6. Punti deboli da considerare
Scribe v2: La velocità (34x) è inferiore a Deepgram. Si consiglia un test diretto sul proprio volume di dati per ottimizzare i crediti.
OpenAI: Assenza di un piano gratuito, mancanza di timestamp sui modelli moderni, costi variabili meno prevedibili nello streaming.
Deepgram: Precisione nei benchmark esterni lievemente inferiore (5,2%), supporto della lingua italiana arrivato dopo rispetto ai leader del settore.
Whisper(OS): Nessun aggiornamento ufficiale da large-v3-turbo (ottobre 2024). Manutenzione interamente a carico dell'utente.
🚀 Conclusione: Il test A/B è la strada giusta
I benchmark sono utili, ma il vero banco di prova è l'audio che utilizzate quotidianamente (microfoni, accenti regionali, lessico tecnico). Fortunatamente, combinando il piano gratuito ElevenLabs e i $200 di crediti Deepgram, potete testare entrambi con i vostri file senza alcun investimento iniziale.
Se siete nuovi alle integrazioni, consultate la nostra Guida all'integrazione API, mentre per il TTS vi invitiamo a confrontarci con altre soluzioni come Google TTS o Amazon Polly.
Inizia con ElevenLabs Scribe (Gratis) →
Alla prossima dal Laboratorio ElevenLabs! ⚡