🎯 이 글로 알 수 있는 것
• 2026년 5월 가격 인하(최대 55%) + 종량제(PAYG) 도입으로 뭐가 달라졌는지
• Flash vs Multilingual v2 vs Eleven v3 — 모델 선택 기준 한 장 정리
• 플랜·크레딧 구조표 (Free $0 ~ Business $990)
• 파이썬으로 첫 음성 생성하는 최소 예제 코드
• 유튜브 더빙 월 10편 / 오디오북 1권 — 실제 비용 시뮬레이션
📌 들어가며
안녕하세요, 일레븐랩스 연구소 입니다.
그동안 ElevenLabs API를 보고 "좋은 건 알겠는데 비싸다"며 미뤄온 개발자분들이 많았습니다.
그런데 2026년 5월 7일, ElevenLabs가 공식 블로그로 API 가격 최대 55% 인하 + Pay-As-You-Go(종량제) 도입을 발표하면서 상황이 달라졌습니다.
Flash 모델 기준 1,000자당 $0.11 → $0.05가 됐죠.
이 글은 "지금부터 연동해보려는 개발자" 기준의 시작 가이드입니다.
경쟁 API와의 비교가 먼저 필요하면 ElevenLabs vs Google TTS vs Polly 비교 글을 먼저 읽고 오세요.
📖 개발이 처음이라면 — 용어 4개만 정리하고 갈게요 ⚡
• API = 내 프로그램이 ElevenLabs 기능을 가져다 쓸 수 있게 해주는 "연결 통로"예요.
• API 키 = 그 통로를 쓸 때 보여주는 "내 계정 출입증"이에요. 절대 외부에 노출하면 안 됩니다.
• 크레딧 = 글자 수를 환산한 사용권이에요. 플랜마다 매달 충전되고, 음성을 만들 때마다 차감됩니다.
• 스트리밍 = 음성이 다 만들어질 때까지 기다리지 않고, 만들어지는 부분부터 바로 재생하는 방식이에요. 챗봇처럼 "즉답"이 필요할 때 씁니다.
🧠 1. 모델 선택 — 이 표 하나면 됩니다
모델 | 가격 (1,000자) | 언어 | 이럴 때 |
|---|---|---|---|
Flash v2.5 / Turbo | $0.05 | 32개 (한국어 ✓) | 챗봇·실시간 응답·대량 처리. 모델 추론 기준 약 75ms (단, 공식 문서 명시대로 네트워크 포함 실제 TTFB는 이보다 김) |
Multilingual v2 | $0.10 | 29개 (한국어 ✓) | 장문 내레이션·오디오북·더빙의 검증된 기본기 |
Eleven v3 | $0.10 | 70+개 (한국어 ✓) | [excited], [whispers] 같은 Audio Tags로 감정 연출이 필요한 콘텐츠 (v3 리뷰) |
▲ 출처: elevenlabs.io/pricing/api · 공식 모델 문서 (2026년 6월 확인)
한 줄 기준: 실시간이면 Flash, 들려주는 콘텐츠면 v3(또는 Multilingual v2).
같은 텍스트라도 Flash 계열은 크레딧이 더 적게 차감되는 구조라(공식 API 요율 기준), 비용 민감한 파이프라인은 Flash로 시작해서 품질이 아쉬운 구간만 상위 모델로 올리는 패턴이 실용적입니다.
💳 2. 플랜·크레딧 구조
플랜 | 월 요금 | 크레딧/월 | 비고 |
|---|---|---|---|
Free | $0 | 10K | 비상업 + 출처표기 의무 — 수익 콘텐츠에 쓰면 라이선스 위반 |
Starter | $6 | 30K | 상업 라이선스 시작 + 인스턴트 음성 복제(1–2분 오디오) |
Creator | $22 (첫 달 50%↓) | ~120K | 프로페셔널 음성 복제(30분+ 오디오) |
Pro | $99 | 600K | |
Scale | $299 | 1.8M | |
Business | $990 | 6M | 초과분은 종량제(PAYG)로 이어 쓰기 |
▲ 출처: elevenlabs.io/pricing (2026년 6월 확인). 크리에이티브 플랜과 API 플랜이 별도이니 개발 용도는 pricing/api 페이지 기준으로 확인하세요.
💡 종량제(PAYG)가 왜 중요한가 — 예전엔 크레딧이 모자라면 상위 플랜으로 점프해야 했습니다.
이제는 쓴 만큼만 추가 과금되니, "월말에 트래픽 몰리는 서비스"도 플랜을 한 단계 낮게 잡고 시작할 수 있습니다.
비용 예측 가능성이 완전히 달라진 부분입니다.
🐍 3. 첫 호출 — 파이썬 최소 예제
공식 SDK(elevenlabs 패키지) 기준, 텍스트를 mp3로 바꾸는 최소 코드입니다:
from elevenlabs.client import ElevenLabs
client = ElevenLabs(api_key="YOUR_API_KEY") # 대시보드에서 발급
audio = client.text_to_speech.convert(
voice_id="VOICE_ID", # Voice Library에서 선택한 보이스
model_id="eleven_flash_v2_5", # 실시간이면 flash, 콘텐츠면 eleven_v3
text="안녕하세요, 일레븐랩스 API 테스트입니다.",
)
with open("output.mp3", "wb") as f:
for chunk in audio:
f.write(chunk)몇 가지 실무 팁:
스트리밍이 필요하면 convert 대신 stream 엔드포인트를 쓰고 청크를 받는 즉시 재생 버퍼로 넘기세요.
챗봇·에이전트 응답처럼 "첫 소리까지의 시간"이 중요한 곳에서 체감이 큽니다.API 키는 서버에만 — 프런트엔드에 키를 넣으면 그대로 털립니다. 프록시 엔드포인트를 하나 두는 게 기본입니다.
지연시간 수치를 비교할 땐 항상 "모델 추론 시간"과 "네트워크 포함 TTFB"를 구분하세요.
공식 문서도 75ms는 추론 기준임을 명시합니다. 한국 리전 사용자라면 실측이 답입니다.
🧮 4. 비용 시뮬레이션 — 내 프로젝트면 얼마?
공식 요율(Flash $0.05/1,000자, v3·Multilingual v2 $0.10/1,000자)로 계산해봤습니다:
시나리오 | 분량 가정 | Flash | v3 / Multilingual v2 |
|---|---|---|---|
유튜브 내레이션 월 10편 | 편당 스크립트 6,000자 | $3.00 | $6.00 |
오디오북 1권 | 300,000자 | $15.00 | $30.00 |
고객 알림 음성 월 100만 자 | 1,000,000자 | $50.00 | $100.00 |
▲ 공식 API 요율 기준 단순 환산. 구독 플랜에 포함된 크레딧을 먼저 소진하므로 실제 청구액은 더 낮을 수 있습니다.
보시다시피 콘텐츠 제작 규모(월 수만~수십만 자)에서는 부담이 거의 없고, 월 100만 자급 대량 워크로드부터는 비교 글에서 다룬 Polly Generative·Chirp 3 HD($30/100만 자)가 가성비 우위로 넘어갑니다.
이 선을 알고 시작하면 나중에 후회가 없습니다.
⚠️ 5. 시작 전 체크리스트
무료 플랜으로 상업 콘텐츠 만들지 않기 — Free는 비상업 + 출처표기 의무입니다. 상업 라이선스는 Starter($6/월)부터.
음성 복제 권한 확인 — Instant는 Starter부터, Professional(30분+ 오디오, 본인 검증)은 Creator부터입니다.
크레딧 소진 모니터링 — 대시보드 사용량 그래프를 주기적으로 확인하고, 예상 밖 소진이 보이면 모델(Flash vs v2/v3) 선택부터 점검하세요.
본격 투입 전 같은 문장으로 경쟁 API와 비교청취 — 음질 우열은 용도·언어별로 다릅니다. 직접 들어보는 것만이 답입니다.
🚀 마치며
2026년의 ElevenLabs API는 "비싸서 망설이던 API"에서 "일단 $0으로 시작해서 쓴 만큼 내는 API"로 바뀌었습니다.
먼저 무료 플랜으로 모델별 음질을 비교해보고, 프로젝트 규모가 잡히면 위 시뮬레이션 표로 월 비용을 가늠해보세요.
음성인식(STT)까지 한 번에 붙일 계획이라면 Scribe vs Whisper vs Deepgram 비교도 같이 보시고, 기본 연동 흐름은 보이스 AI API 연동 가이드를 참고하세요.
일레븐랩스 연구소 였습니다. ⚡