[2026 STT 대전] 받아쓰기 AI 최강자는? ElevenLabs Scribe vs Whisper vs Deepgram 전격 비교!

🎯 이 글로 알 수 있는 것

• 2026년 6월 기준, 독립 벤치마크(Artificial Analysis)로 본 STT 3사의 진짜 정확도 순위
• 시간당 가격 비교 — 어떤 API가 어떤 작업량에서 가장 싼가
• 한국어 인식 성능의 솔직한 현실 (국내 특화 엔진 얘기까지)
• 화자분리·단어 타임스탬프 — 자막·회의록 워크플로에서 갈리는 결정적 차이
• 용도별 최종 추천: 자막 제작 / 실시간 스트리밍 / 비용 0원 자가호스팅

📌 들어가며

안녕하세요, 일레븐랩스 연구소 입니다.

ElevenLabs 하면 TTS(음성 합성)만 떠올리는 분들이 많은데, 2026년 1월 Scribe v2(배치 전사)가 정식 출시되면서 음성인식(STT) 시장에서도 OpenAI Whisper, Deepgram과 정면으로 붙는 구도가 됐습니다.
(실시간용 Scribe v2 Realtime은 2025년 11월에 먼저 나왔죠 — 공식 블로그 발표 기준)

이전에 Scribe 소개 글에서 기본 개념을 다뤘다면, 오늘은 "그래서 셋 중 뭘 써야 하는데?"라는 질문에 독립 벤치마크와 공식 가격표 기준으로 답해보겠습니다. 벤더 자체 발표 수치는 본문에 전부 '자체 벤치마크'라고 구분 표기했습니다.

⚡ 바쁜 분들을 위한 3줄 결론

1️⃣ 자막·회의록·팟캐스트 등 배치 전사 → Scribe v2 (독립 벤치마크 정확도 최상위 + $0.22/시간으로 OpenAI보다 저렴)
2️⃣ 실시간 대량 스트리밍·콜센터 → Deepgram Nova-3 (처리 속도와 스트리밍 단가, 동시성에서 우위)
3️⃣ 비용 0원·데이터 주권이 최우선 → Whisper 자가호스팅 (MIT 라이선스, 단 화자분리는 직접 구현)

📖 들어가기 전에 — 용어 4개만 쉽게 정리하고 갈게요 ⚡
• STT = Speech-to-Text, 말을 글자로 받아 적어주는 "받아쓰기 AI"예요. (회의록·유튜브 자막이 다 이걸로 만들어집니다)
• WER = 오류율이에요. 100단어를 받아쓰게 했을 때 몇 단어를 틀렸는지 — 낮을수록 정확한 겁니다.
• 화자분리 = "이 말은 A가, 저 말은 B가 했다"를 구분해주는 기능이에요. 회의록에서 특히 중요하죠.
• 단어 타임스탬프 = 단어마다 "몇 분 몇 초에 나왔는지" 시간을 붙여주는 것 — 자막 싱크를 맞출 때 필수입니다.

📊 1. 정확도 — 독립 벤치마크가 말해주는 것

STT 비교에서 제일 흔한 함정이 "각 회사 발표 자료만 보고 판단"하는 겁니다.
세 회사 모두 자기네가 1등이라고 하거든요. 그래서 제3자 벤치마크인 Artificial Analysis의 AA-WER 지수(2026년 6월 기준, 낮을수록 정확)를 기준으로 봤습니다.

모델	AA-WER (낮을수록 정확)	속도 계수
ElevenLabs Scribe v2	2.2% (전체 2위)	34.0x
OpenAI gpt-4o-transcribe	4.0%	—
OpenAI gpt-4o-mini-transcribe	4.5%	—
Deepgram Nova-3	5.2%	504.4x (압도적 1위)

▲ 출처: Artificial Analysis Speech-to-Text 리더보드 (2026년 6월 확인)

정리하면 — 정확도는 Scribe v2가 OpenAI·Deepgram을 모두 앞서고, 처리 속도는 Deepgram이 504x로 차원이 다릅니다.
1시간짜리 오디오를 Deepgram은 몇 초 만에, Scribe v2는 약 2분 정도에 처리하는 수준의 차이라고 보시면 됩니다.

참고로 ElevenLabs는 Scribe v2 Realtime이 "유럽·아시아 30개 언어 평균 93.5% 정확도로 실시간 모델 중 최저 WER"이라고 발표했는데, 이건 자체 벤치마크이니 감안해서 보세요.

💰 2. 가격 — 시간당으로 환산해보면

구분	Scribe v2	OpenAI	Deepgram Nova-3
배치 전사	$0.22/시간	$0.36/시간 (gpt-4o-transcribe) $0.18/시간 (mini)	$0.46/시간 (단일언어)
실시간 스트리밍	$0.39/시간	Realtime API 토큰 과금 (별도·고가)	$0.29/시간
화자분리	기본 포함	diarize 모델 $0.36/시간	기본 포함
무료 체험	무료 플랜 월 10,000 크레딧	API 무료 티어 없음 (오픈소스는 자가호스팅 무료)	$200 크레딧 (카드 불필요·만료 없음)

▲ 출처: elevenlabs.io/pricing/api · developers.openai.com 가격 문서 · deepgram.com/pricing (2026년 6월 확인)

핵심 포인트 세 가지:

배치 전사 가성비는 Scribe v2 — $0.22/시간으로 gpt-4o-transcribe($0.36)의 약 60% 수준이면서 정확도는 더 높습니다. Creator 플랜($22/월)에는 배치 100시간이 포함됩니다.
스트리밍 단가는 Deepgram — $0.29/시간(단일언어)에 초 단위 과금, PAYG에서도 WebSocket 동시 150 연결까지 지원합니다.
Deepgram의 $200 무료 크레딧은 Nova-3 기준 약 433시간 분량으로 3사 중 가장 후합니다. 테스트 비용 걱정은 사실상 없는 셈이죠.

🇰🇷 3. 한국어 성능 — 솔직하게 말씀드립니다

여기가 이 글에서 제일 중요한 섹션일 수 있습니다. 결론부터: 한국어 STT는 세 글로벌 API 모두 영어만큼 잘하지 못합니다.

ElevenLabs는 공식 언어 티어에서 한국어를 'Good' 등급(WER 10~20%)으로 분류합니다.
영어·프랑스어·독일어 등 34개 언어가 속한 'Excellent' 등급(WER 5% 이하)보다 한 단계 아래라는 걸 스스로 인정하고 있는 거죠.

ElevenLabs 자체 한국어 벤치마크(FLEURS, Scribe v1 기준 — 자체 발표 수치)에서는 Scribe 10.7% WER로 Whisper large-v3(18.1%), Deepgram Nova-2(18.4%)보다 우위였습니다.
Deepgram도 2026년 Nova-3에 한국어를 추가하면서 한글 음절·띄어쓰기 처리를 개선했다고 발표했고요.

다만 더 솔직한 비교가 있습니다. 국내 업체 리턴제로가 공개한 독립 벤치마크(AI-Hub 6개 데이터셋, CER 기준)에서는 국내 특화 엔진(리턴제로 VITO 5.91%, 네이버 클로바 7.52%)이 Whisper(11.39%) 같은 글로벌 엔진을 분명하게 앞섰습니다. (Scribe·Nova-3는 이 비교에 포함되지 않은 점은 감안하세요.)

그래서 한국어 "전용" 대량 전사가 목적이라면 국내 특화 API도 꼭 비교해보시길 권합니다.
반대로 다국어 콘텐츠(유튜브 글로벌 채널, 더빙 워크플로)나 영어 중심 작업이라면 글로벌 3사 중에서 고르는 게 맞고요.
어필리에이트 블로그에서 이런 말 하기 쉽지 않지만, 안 맞는 도구를 권해서 실망시키는 것보다 낫다고 생각합니다. 😅

🧰 4. 기능 차이 — 자막·회의록 만들 때 갈리는 부분

화자분리(누가 말했는지): Scribe v2·Deepgram은 API에 기본 내장. 오픈소스 Whisper는 기능 자체가 없어서 pyannote 같은 별도 라이브러리를 조합해야 합니다.
OpenAI API 쪽은 2025년 10월 나온 gpt-4o-transcribe-diarize가 추가 과금 없이 화자분리를 지원합니다(화자 4명까지 사전 등록 가능).
단어 단위 타임스탬프(자막 싱크): Scribe v2 기본 지원.
OpenAI는 레거시 whisper-1만 지원하고 최신 gpt-4o-transcribe 계열은 미지원이라, 자막 제작 워크플로라면 이 부분이 의외의 함정입니다.
전문용어 보정: Deepgram의 Keyterm Prompting이 한국어도 지원 — 브랜드명·의학용어 같은 고유명사가 많은 녹취에 유용합니다.

Scribe v2 무료 플랜으로 테스트해보기 →

🎯 5. 용도별 최종 추천

용도	추천	이유
유튜브 자막·팟캐스트·회의록	Scribe v2	독립 벤치마크 정확도 최상위 + 화자분리·단어 타임스탬프 기본 + $0.22/시간
실시간 콜센터·라이브 자막·대량 처리	Deepgram Nova-3	속도 504x·스트리밍 $0.29/시간·동시성, $200 무료 크레딧
예산 0원·내부망·데이터 주권	Whisper 자가호스팅	MIT 라이선스 무료. 단 화자분리 직접 구현 + GPU 비용은 본인 부담
한국어 전용 대량 전사	국내 특화 API 비교 검토	독립 벤치마크 기준 국내 엔진(CER 5.9~7.5%)이 글로벌 대비 우위

⚠️ 6. 각자의 약점도 정리

Scribe v2: 처리 속도(34x)가 Deepgram(504x) 대비 크게 느림.
무료 플랜의 STT 시간 환산이 공식 페이지에 명확히 안 나와 있어 본격 사용 전 크레딧 소모를 직접 확인해야 합니다.
OpenAI: API 무료 티어가 없고, 최신 모델이 단어 타임스탬프를 지원하지 않으며, 실시간은 토큰 과금이라 비용 예측이 어렵습니다.
Deepgram: 독립 벤치마크 정확도가 3사 중 가장 낮고(5.2%), 한국어 지원이 2026년에야 Nova-3에 추가된 후발 주자입니다.
Whisper(오픈소스): 2024년 10월 large-v3-turbo 이후 신규 버전이 없습니다.
화자분리·운영 인프라를 직접 책임져야 합니다.

🚀 마치며 — 결국 답은 "본인 오디오로 A/B 테스트"

벤치마크는 참고일 뿐, 여러분의 오디오(녹음 환경·말투·전문용어)에서의 성능은 직접 돌려봐야 압니다.
다행히 ElevenLabs 무료 플랜 + Deepgram $200 크레딧이면 둘 다 비용 없이 같은 파일로 비교해볼 수 있습니다.

개발 연동이 처음이라면 보이스 AI API 연동 가이드를, TTS API 쪽 비교는 ElevenLabs vs Google TTS vs Amazon Polly 비교를 함께 보세요.

ElevenLabs Scribe 시작하기 (무료) →

일레븐랩스 연구소 였습니다. ⚡