🎯 이 글로 알 수 있는 것
• 100만 자당 가격표 — ElevenLabs / Google / Polly 등급별 진짜 비용 (2026년 6월 공식 페이지 기준)
• 콘텐츠용 vs 대량 알림용 — 용도별로 갈리는 의사결정 기준
• 개인도 쓸 수 있는 음성 복제는 사실상 한 곳뿐이라는 것
• 한국어 보이스 현황 (서연 Generative, Chirp 3 ko-KR, Eleven v3)
• ElevenLabs의 정직한 단점 4가지 — 가격, 아레나 순위, 무료 플랜 함정, 지연시간
📌 들어가며
안녕하세요, 일레븐랩스 연구소 입니다.
"TTS API 뭐 쓰지?"라는 질문에 인터넷 답변은 보통 둘로 갈립니다.
"무조건 ElevenLabs"라는 팬심 답변과, "Google이나 Polly가 훨씬 싸다"는 가성비 답변.
둘 다 반만 맞습니다. 용도에 따라 답이 완전히 달라지는 문제거든요.
오늘은 2026년 6월 기준 공식 가격 페이지와 독립 자료(블라인드 아레나 등)를 근거로, 세 API를 용도별로 비교해보겠습니다. ElevenLabs 연구소지만... 단점도 그대로 알려드립니다!
⚡ 바쁜 분들을 위한 3줄 결론
1️⃣ 유튜브 더빙·오디오북·캐릭터 보이스 등 "듣는 사람이 돈을 내는" 콘텐츠 → ElevenLabs (감정 연출 + 셀프서브 음성 복제)
2️⃣ 대량 알림·IVR·사내 시스템 등 "글자 수가 곧 비용"인 워크로드 → Polly Generative 또는 Google Chirp 3 HD ($30/100만 자)
3️⃣ 이미 GCP/AWS 스택이면 → 해당 클라우드 TTS 유지가 운영상 합리적
📖 들어가기 전에 — 용어 4개만 쉽게 정리하고 갈게요 ⚡
• TTS = Text-to-Speech, 글자를 자연스러운 목소리로 읽어주는 "말하기 AI"예요.
• 100만 자당 가격 = TTS 요금의 기준 단위예요. 100만 자면 대략 A4 700장 분량이라고 보시면 됩니다.
• 음성 복제 = 내 목소리를 학습시켜서, 내가 안 읽어도 내 목소리로 말하게 만드는 기능이에요.
• 셀프서브 = 영업팀 미팅·계약 없이, 카드 결제만 하면 바로 쓸 수 있다는 뜻이에요. (의외로 큰 차이를 만듭니다)
💰 1. 가격 — 100만 자당으로 보면 차이가 선명합니다
등급 | ElevenLabs | Google Cloud TTS | Amazon Polly |
|---|---|---|---|
보급형(구형) | — | Standard/WaveNet $4 | Standard $4 |
중급(신경망) | — | Neural2 $16 | Neural $16 |
최신 생성형 | Flash v2.5/Turbo $50 | Chirp 3 HD $30 | Generative $30 |
플래그십 | Eleven v3·Multilingual v2 $100 | Studio $160 | Long-Form $100 |
▲ 100만 자당 USD. 출처: elevenlabs.io/pricing/api · cloud.google.com/text-to-speech/pricing · aws.amazon.com/polly/pricing (2026년 6월 확인)
숫자가 말해주는 것:
ElevenLabs는 같은 '최신 생성형' 등급에서 Google·Polly($30)보다 약 1.7배($50), 구형 Standard($4) 대비로는 최대 25배 비쌉니다.
100만 자가 넘어가는 대량 처리(알림, 뉴스 읽어주기, IVR)에는 솔직히 추천하지 않습니다.다만 2026년 5월 7일 ElevenLabs가 API 가격을 최대 55% 인하하고 종량제(PAYG)를 도입하면서(공식 블로그 발표) 격차가 크게 줄었습니다.
Flash 기준 1,000자당 $0.11 → $0.05가 된 거라, "ElevenLabs = 사치재" 공식은 이제 옛말에 가깝습니다.Google·Polly의 구형 보이스($4)는 싸지만, 직접 들어보면 기계음 티가 분명한 세대입니다.
비교는 같은 등급끼리 하는 게 공정합니다.
🎭 2. 음질·표현력 — "무조건 1위"는 아무도 못 씁니다
음질 비교에서 제일 정직한 자료는 블라인드 아레나(두 모델의 음성을 익명으로 들려주고 투표)입니다.
그리고 여기서 솔직해질 부분이 있습니다.
2026년 6월 기준 Artificial Analysis Speech Arena 톱5에 ElevenLabs는 없습니다.
상위권은 알리바바 Fun-Realtime-TTS(ELO 1228), Gemini 3.1 Flash TTS(1225) 등이 차지하고 있습니다.
ElevenLabs가 상용 TTS 중 최상위였다는 집계는 과거 시점 자료입니다.
"ElevenLabs가 무조건 음질 1위"라고 쓰는 글은 걸러도 됩니다.
그럼에도 콘텐츠 제작에서 ElevenLabs를 먼저 권하는 이유는 음질 순위가 아니라 연출력과 워크플로입니다:
Eleven v3의 Audio Tags — [excited], [whispers] 같은 태그로 감정·연출을 텍스트 안에서 직접 지정합니다.
70개 이상 언어(한국어 포함) 지원. 내레이션 톤이 곧 상품인 콘텐츠에서 이게 결정적입니다.(v3 실사용 리뷰는 Eleven v3 vs v2 비교 글 참고)
Multilingual v2 — 29개 언어 장문 내레이션·더빙용 대표 모델로, 더빙 워크플로와 자연스럽게 이어집니다.
Google Chirp 3 HD도 51개 로케일(ko-KR 포함), 스트리밍 합성, [pause] 마크업, IPA 발음 제어까지 기능적으로 훌륭합니다 — 가격 대비로는 오히려 우위입니다.
🎤 3. 음성 복제 — 개인이 쓸 수 있는 건 사실상 한 곳
"내 목소리로 콘텐츠를 만들고 싶다"면 비교가 단순해집니다.
서비스 | 음성 복제 방식 | 개인 접근성 |
|---|---|---|
ElevenLabs | Instant(1–2분 오디오, Starter $6/월~) / Professional(30분+, Creator $22/월~) | 셀프서브 — 결제 즉시 사용 |
Google (Instant Custom Voice) | allowlist 승인제 — 영업팀 접촉 + 본인 동의문 녹음 필수 | 개인은 사실상 불가 |
Polly (Brand Voice) | AWS 팀과 별도 계약으로 전용 보이스 제작 | 기업 전용 |
▲ 출처: 각 사 공식 문서 (2026년 6월 확인)
🇰🇷 4. 한국어 보이스 현황
Polly: 한국어 '서연(Seoyeon)' 보이스가 2025년 11월부터 최신 Generative 엔진에서도 지원됩니다.
같은 시점에 서울 리전으로 Generative 엔진이 확대돼서 국내 서비스의 지연시간 면에서도 유리해졌습니다. (AWS 공식 발표)Google: Chirp 3 HD가 ko-KR을 정식 지원하고, IPA 커스텀 발음이 한국어에도 적용됩니다.
고유명사 발음 교정이 필요한 서비스에 실용적입니다.ElevenLabs: Flash v2.5(32개 언어)·Multilingual v2(29개)·Eleven v3(70+개) 모두 한국어 지원.
감정 연출이 들어가는 한국어 내레이션이라면 v3의 Audio Tags가 차별점입니다.
⚠️ 5. ElevenLabs의 정직한 단점 4가지
① 비싸다 — 같은 등급 대비 1.7배, 구형 대비 최대 25배. 월 100만 자 이상 대량 워크로드면 Polly Generative/Chirp 3 HD($30)가 합리적입니다.
② 블라인드 아레나 톱5 밖 — "음질 무조건 1위" 시대는 지났습니다(2026년 6월 기준).
경쟁이 치열해진 만큼 본인 귀로 비교청취하고 결정하세요.③ 무료 플랜은 상업 사용 불가 + 출처표기 의무 — 무료로 뽑은 음성을 수익 영상에 쓰면 라이선스 위반입니다.
상업 라이선스는 Starter($6/월)부터. 어필리에이트 글들이 잘 안 알려주는 부분이라 먼저 말씀드립니다.④ "75ms 지연"은 모델 추론 시간 기준 — 공식 문서 스스로 네트워크 포함 실제 응답(TTFB)은 더 길다고 명시합니다.
한국에서 실시간 대화형 서비스를 만든다면 실측이 필수입니다.
🆓 6. 무료 티어 비교 — Polly의 함정 하나
Google: Standard 월 400만 자 + Chirp 3 HD 월 100만 자 — 기간 제한 없는 영구 무료량이라 가장 후합니다.
Polly: Standard 월 500만 자 등 — 단 첫 12개월 한정이고, 2025년 7월 15일 이후 신규 AWS 계정은 $200 크레딧 방식으로 전환됐습니다. "Polly 무료" 글을 보실 땐 계정 생성 시점을 확인하세요.
ElevenLabs: Free 플랜 월 10,000 크레딧 — 단 위에서 말한 대로 비상업·출처표기 조건입니다.
🚀 마치며 — 의사결정 한 줄
"이 음성으로 시청자/고객의 마음을 움직여야 한다"면 ElevenLabs, "글자를 소리로 바꾸기만 하면 된다"면 Polly·Google.
2026년 5월 가격 인하와 종량제 도입으로 ElevenLabs 쪽 진입 비용이 크게 낮아진 지금이 비교 테스트하기 좋은 타이밍입니다.
API 연동 실습은 ElevenLabs API 개발자 시작 가이드에서, 음성인식(STT) 쪽 비교는 Scribe vs Whisper vs Deepgram에서 이어집니다.
일레븐랩스 연구소 였습니다. ⚡