ElevenLabs API 최대 55% 인하! 쓴 만큼만 내는 종량제 시작 가이드 - 모델 선택부터 비용 계산까지

🎯 이 글로 알 수 있는 것

• 2026년 5월 가격 인하(최대 55%) + 종량제(PAYG) 도입으로 뭐가 달라졌는지
• Flash vs Multilingual v2 vs Eleven v3 — 모델 선택 기준 한 장 정리
• 플랜·크레딧 구조표 (Free $0 ~ Business $990)
• 파이썬으로 첫 음성 생성하는 최소 예제 코드
• 유튜브 더빙 월 10편 / 오디오북 1권 — 실제 비용 시뮬레이션

📌 들어가며

안녕하세요, 일레븐랩스 연구소 입니다.

그동안 ElevenLabs API를 보고 "좋은 건 알겠는데 비싸다"며 미뤄온 개발자분들이 많았습니다.
그런데 2026년 5월 7일, ElevenLabs가 공식 블로그로 API 가격 최대 55% 인하 + Pay-As-You-Go(종량제) 도입을 발표하면서 상황이 달라졌습니다.

Flash 모델 기준 1,000자당 $0.11 → $0.05가 됐죠.

이 글은 "지금부터 연동해보려는 개발자" 기준의 시작 가이드입니다.
경쟁 API와의 비교가 먼저 필요하면 ElevenLabs vs Google TTS vs Polly 비교 글을 먼저 읽고 오세요.

📖 개발이 처음이라면 — 용어 4개만 정리하고 갈게요 ⚡
• API = 내 프로그램이 ElevenLabs 기능을 가져다 쓸 수 있게 해주는 "연결 통로"예요.
• API 키 = 그 통로를 쓸 때 보여주는 "내 계정 출입증"이에요. 절대 외부에 노출하면 안 됩니다.
• 크레딧 = 글자 수를 환산한 사용권이에요. 플랜마다 매달 충전되고, 음성을 만들 때마다 차감됩니다.
• 스트리밍 = 음성이 다 만들어질 때까지 기다리지 않고, 만들어지는 부분부터 바로 재생하는 방식이에요. 챗봇처럼 "즉답"이 필요할 때 씁니다.

🧠 1. 모델 선택 — 이 표 하나면 됩니다

모델	가격 (1,000자)	언어	이럴 때
Flash v2.5 / Turbo	$0.05	32개 (한국어 ✓)	챗봇·실시간 응답·대량 처리. 모델 추론 기준 약 75ms (단, 공식 문서 명시대로 네트워크 포함 실제 TTFB는 이보다 김)
Multilingual v2	$0.10	29개 (한국어 ✓)	장문 내레이션·오디오북·더빙의 검증된 기본기
Eleven v3	$0.10	70+개 (한국어 ✓)	[excited], [whispers] 같은 Audio Tags로 감정 연출이 필요한 콘텐츠 (v3 리뷰)

▲ 출처: elevenlabs.io/pricing/api · 공식 모델 문서 (2026년 6월 확인)

한 줄 기준: 실시간이면 Flash, 들려주는 콘텐츠면 v3(또는 Multilingual v2).

같은 텍스트라도 Flash 계열은 크레딧이 더 적게 차감되는 구조라(공식 API 요율 기준), 비용 민감한 파이프라인은 Flash로 시작해서 품질이 아쉬운 구간만 상위 모델로 올리는 패턴이 실용적입니다.

💳 2. 플랜·크레딧 구조

플랜	월 요금	크레딧/월	비고
Free	$0	10K	비상업 + 출처표기 의무 — 수익 콘텐츠에 쓰면 라이선스 위반
Starter	$6	30K	상업 라이선스 시작 + 인스턴트 음성 복제(1–2분 오디오)
Creator	$22 (첫 달 50%↓)	~120K	프로페셔널 음성 복제(30분+ 오디오)
Pro	$99	600K
Scale	$299	1.8M
Business	$990	6M	초과분은 종량제(PAYG)로 이어 쓰기

▲ 출처: elevenlabs.io/pricing (2026년 6월 확인). 크리에이티브 플랜과 API 플랜이 별도이니 개발 용도는 pricing/api 페이지 기준으로 확인하세요.

💡 종량제(PAYG)가 왜 중요한가 — 예전엔 크레딧이 모자라면 상위 플랜으로 점프해야 했습니다.
이제는 쓴 만큼만 추가 과금되니, "월말에 트래픽 몰리는 서비스"도 플랜을 한 단계 낮게 잡고 시작할 수 있습니다.
비용 예측 가능성이 완전히 달라진 부분입니다.

🐍 3. 첫 호출 — 파이썬 최소 예제

공식 SDK(elevenlabs 패키지) 기준, 텍스트를 mp3로 바꾸는 최소 코드입니다:

from elevenlabs.client import ElevenLabs

client = ElevenLabs(api_key="YOUR_API_KEY")  # 대시보드에서 발급

audio = client.text_to_speech.convert(
    voice_id="VOICE_ID",            # Voice Library에서 선택한 보이스
    model_id="eleven_flash_v2_5",   # 실시간이면 flash, 콘텐츠면 eleven_v3
    text="안녕하세요, 일레븐랩스 API 테스트입니다.",
)

with open("output.mp3", "wb") as f:
    for chunk in audio:
        f.write(chunk)

몇 가지 실무 팁:

스트리밍이 필요하면 convert 대신 stream 엔드포인트를 쓰고 청크를 받는 즉시 재생 버퍼로 넘기세요.
챗봇·에이전트 응답처럼 "첫 소리까지의 시간"이 중요한 곳에서 체감이 큽니다.
API 키는 서버에만 — 프런트엔드에 키를 넣으면 그대로 털립니다. 프록시 엔드포인트를 하나 두는 게 기본입니다.
지연시간 수치를 비교할 땐 항상 "모델 추론 시간"과 "네트워크 포함 TTFB"를 구분하세요.
공식 문서도 75ms는 추론 기준임을 명시합니다. 한국 리전 사용자라면 실측이 답입니다.

API 키 발급하고 무료로 시작하기 →

🧮 4. 비용 시뮬레이션 — 내 프로젝트면 얼마?

공식 요율(Flash $0.05/1,000자, v3·Multilingual v2 $0.10/1,000자)로 계산해봤습니다:

시나리오	분량 가정	Flash	v3 / Multilingual v2
유튜브 내레이션 월 10편	편당 스크립트 6,000자 = 월 60,000자	$3.00	$6.00
오디오북 1권	300,000자	$15.00	$30.00
고객 알림 음성 월 100만 자	1,000,000자	$50.00	$100.00

▲ 공식 API 요율 기준 단순 환산. 구독 플랜에 포함된 크레딧을 먼저 소진하므로 실제 청구액은 더 낮을 수 있습니다.

보시다시피 콘텐츠 제작 규모(월 수만~수십만 자)에서는 부담이 거의 없고, 월 100만 자급 대량 워크로드부터는 비교 글에서 다룬 Polly Generative·Chirp 3 HD($30/100만 자)가 가성비 우위로 넘어갑니다.

이 선을 알고 시작하면 나중에 후회가 없습니다.

⚠️ 5. 시작 전 체크리스트

무료 플랜으로 상업 콘텐츠 만들지 않기 — Free는 비상업 + 출처표기 의무입니다. 상업 라이선스는 Starter($6/월)부터.
음성 복제 권한 확인 — Instant는 Starter부터, Professional(30분+ 오디오, 본인 검증)은 Creator부터입니다.
크레딧 소진 모니터링 — 대시보드 사용량 그래프를 주기적으로 확인하고, 예상 밖 소진이 보이면 모델(Flash vs v2/v3) 선택부터 점검하세요.
본격 투입 전 같은 문장으로 경쟁 API와 비교청취 — 음질 우열은 용도·언어별로 다릅니다. 직접 들어보는 것만이 답입니다.

🚀 마치며

2026년의 ElevenLabs API는 "비싸서 망설이던 API"에서 "일단 $0으로 시작해서 쓴 만큼 내는 API"로 바뀌었습니다.
먼저 무료 플랜으로 모델별 음질을 비교해보고, 프로젝트 규모가 잡히면 위 시뮬레이션 표로 월 비용을 가늠해보세요.

음성인식(STT)까지 한 번에 붙일 계획이라면 Scribe vs Whisper vs Deepgram 비교도 같이 보시고, 기본 연동 흐름은 보이스 AI API 연동 가이드를 참고하세요.

ElevenLabs API 시작하기 (무료) →

일레븐랩스 연구소 였습니다. ⚡