🎯 Bạn sẽ nắm bắt được gì trong bài viết này?
• Cập nhật quan trọng từ tháng 5/2026: Giảm giá (lên tới 55%) + áp dụng hình thức trả phí theo mức sử dụng thực tế (PAYG)
• So sánh Flash, Multilingual v2 và Eleven v3 — Bảng tóm tắt giúp chọn model phù hợp trong tích tắc
• Bảng cấu trúc gói & credit (từ gói Free $0 đến Business $990)
• Đoạn mã (snippet) mẫu để bạn tạo giọng nói đầu tiên bằng Python
• Mô phỏng chi phí thực tế cho các nhu cầu: 10 video YouTube/tháng hoặc 1 sách nói (audiobook)
📌 Lời mở đầu
Xin chào, chúng tôi là ElevenLabs Lab.
Rất nhiều nhà phát triển đã từng "ngắm nghía" API của ElevenLabs nhưng lại chùn bước vì lo ngại "chất lượng tốt nhưng giá thành cao". Tuy nhiên, vào ngày 7 tháng 5 năm 2026, ElevenLabs đã chính thức công bố giảm giá API tới 55% và áp dụng cơ chế Pay-As-You-Go (PAYG) — một thay đổi mang tính bước ngoặt.
Đơn cử như với model Flash, chi phí đã giảm từ $0.11 xuống còn $0.05 cho mỗi 1.000 ký tự.
Bài viết này là "bản đồ khởi đầu" dành cho những bạn đang bắt đầu tích hợp. Nếu bạn cần so sánh với các đối thủ cạnh tranh trước khi quyết định, hãy đọc ngay bài viết So sánh ElevenLabs, Google TTS và Polly.
📖 Nếu bạn mới bắt đầu — Hãy nắm rõ 4 thuật ngữ này ⚡
• API = "Cây cầu" để ứng dụng của bạn kết nối và sử dụng các tính năng của ElevenLabs.
• API Key = "Thẻ thông hành" để truy cập vào tài khoản. Tuyệt đối không chia sẻ thông tin này cho người khác.
• Credit = Đơn vị sử dụng dựa trên số ký tự. Bạn được nạp mỗi tháng theo gói và sẽ bị trừ dần khi tạo âm thanh.
• Streaming = Cách phát âm thanh ngay lập tức khi dữ liệu được tạo ra thay vì chờ đợi toàn bộ tệp hoàn tất. Phù hợp cho chatbot hoặc các ứng dụng cần phản hồi thời gian thực.
🧠 1. Chọn model nào? Xem ngay bảng này
Model | Giá (1.000 ký tự) | Ngôn ngữ | Phù hợp cho |
|---|---|---|---|
Flash v2.5 / Turbo | $0.05 | 32 (Hỗ trợ tiếng Việt ✓) | Chatbot, phản hồi thời gian thực, xử lý khối lượng lớn. Tốc độ suy luận khoảng 75ms. |
Multilingual v2 | $0.10 | 29 (Hỗ trợ tiếng Việt ✓) | Kể chuyện dài, sách nói, hoặc lồng tiếng với chất lượng ổn định. |
Eleven v3 | $0.10 | 70+ | Nội dung cần biểu cảm qua các Audio Tags như [excited], [whispers] (Xem bài review v3) |
▲ Nguồn: elevenlabs.io/pricing/api · Tài liệu model chính thức (Cập nhật tháng 6/2026)
Nguyên tắc đơn giản: Cần tốc độ phản hồi nhanh thì chọn Flash, cần chất lượng biểu cảm thì chọn v3 (hoặc Multilingual v2).
Vì model Flash tiêu tốn ít credit hơn, nếu dự án của bạn cần tối ưu ngân sách, hãy bắt đầu bằng Flash và chỉ nâng cấp lên các model cao cấp ở những phân đoạn đòi hỏi chất lượng đặc biệt.
💳 2. Cấu trúc gói cước & Credit
Gói | Giá/tháng | Credit/tháng | Lưu ý |
|---|---|---|---|
Free | $0 | 10K | Phi thương mại + Bắt buộc ghi nguồn — Dùng cho nội dung kiếm tiền là vi phạm bản quyền. |
Starter | $6 | 30K | Cho phép thương mại + Nhân bản giọng nói nhanh (1–2 phút audio). |
Creator | $22 (Tháng đầu giảm 50%) | ~120K | Nhân bản giọng nói chuyên nghiệp (30 phút+ audio). |
Pro | $99 | 600K | |
Scale | $299 | 1.8M | |
Business | $990 | 6M | Vượt định mức sẽ tính theo hình thức PAYG. |
▲ Nguồn: elevenlabs.io/pricing (Tháng 6/2026). Lưu ý: Hãy kiểm tra trang pricing/api để biết chính xác thông tin cho mục đích phát triển.
💡 Tại sao PAYG lại quan trọng? — Trước đây, nếu hết credit bạn buộc phải nâng cấp lên gói cao hơn. Bây giờ, bạn chỉ cần trả phí cho những gì bạn thực sự dùng. Điều này giúp tối ưu hóa chi phí cho các dịch vụ có lưu lượng biến động theo tháng.
🐍 3. Cuộc gọi API đầu tiên — Python snippet tối giản
Dưới đây là đoạn mã tối giản để chuyển văn bản thành tệp mp3 bằng SDK chính thức (thư viện `elevenlabs`):
from elevenlabs.client import ElevenLabs
client = ElevenLabs(api_key="YOUR_API_KEY") # Lấy từ Dashboard
audio = client.text_to_speech.convert(
voice_id="VOICE_ID", # Voice ID bạn chọn từ Voice Library
model_id="eleven_flash_v2_5", # flash cho tốc độ, eleven_v3 cho chất lượng
text="Xin chào, đây là bài kiểm tra API của ElevenLabs.",
)
with open("output.mp3", "wb") as f:
for chunk in audio:
f.write(chunk)Một vài lưu ý nhỏ:
Cần Streaming? Hãy sử dụng endpoint `stream` thay vì `convert` và đẩy các chunk vào bộ đệm phát ngay lập tức. Điều này cực kỳ quan trọng đối với các ứng dụng chatbot hoặc trợ lý ảo cần phản hồi nhanh.
Bảo mật API Key — Không bao giờ lưu trữ key ở phía client (frontend). Hãy luôn gọi thông qua proxy server để tránh bị đánh cắp.
Khi so sánh độ trễ, hãy phân biệt giữa "Thời gian suy luận model" và "TTFB (thời gian tính cả truyền tải mạng)". Flash có tốc độ suy luận cực nhanh, nhưng trải nghiệm thực tế còn phụ thuộc vào đường truyền tới server.
Nhận API Key và bắt đầu miễn phí →
🧮 4. Mô phỏng chi phí — Dự án của bạn tốn bao nhiêu?
Dựa trên mức giá chính thức (Flash $0.05/1.000 ký tự, v3·Multilingual v2 $0.10/1.000 ký tự):
Kịch bản | Dung lượng dự kiến | Flash | v3 / Multilingual v2 |
|---|---|---|---|
10 Video YouTube/tháng | 60.000 ký tự | $3.00 | $6.00 |
1 Sách nói (Audiobook) | 300.000 ký tự | $15.00 | $30.00 |
Thông báo khách hàng | 1.000.000 ký tự | $50.00 | $100.00 |
▲ Tính toán dựa trên giá API. Chi phí thực tế có thể thấp hơn nếu gói subscription của bạn đã bao gồm sẵn một lượng credit nhất định.
Như bạn thấy, với nhu cầu làm nội dung thông thường, chi phí gần như không đáng kể. Việc tối ưu hóa chi phí chỉ thực sự trở nên quan trọng khi bạn xử lý quy mô lớn từ hàng triệu ký tự trở lên.
⚠️ 5. Checklist trước khi bắt đầu
Không dùng gói Free cho mục đích thương mại — Gói Free chỉ dành cho mục đích cá nhân và phải ghi nguồn. Nếu muốn kinh doanh, hãy bắt đầu từ gói Starter ($6/tháng).
Kiểm tra quyền nhân bản giọng nói — Tính năng Instant Voice Cloning áp dụng từ gói Starter, trong khi Professional Voice Cloning (30 phút+ audio) dành cho gói từ Creator trở lên.
Theo dõi tiêu thụ credit — Kiểm tra biểu đồ sử dụng trên Dashboard định kỳ. Nếu credit hết nhanh bất thường, hãy kiểm tra xem bạn đang dùng model nào.
Thử nghiệm thực tế — Hãy dùng cùng một đoạn text để so sánh giữa các model. Chất lượng âm thanh phụ thuộc rất nhiều vào ngôn ngữ và giọng đọc, nghe trực tiếp là cách đánh giá tốt nhất.
🚀 Lời kết
ElevenLabs API năm 2026 đã không còn là một dịch vụ "xa xỉ", mà trở thành công cụ dễ dàng tiếp cận cho mọi dự án. Hãy tận dụng gói miễn phí, kiểm tra âm thanh của các model, và sử dụng bảng tính trên để dự tính ngân sách cho dự án của bạn.
Nếu bạn định kết hợp với nhận diện giọng nói (STT), hãy xem thêm bài viết So sánh Scribe, Whisper và Deepgram, hoặc tham khảo Hướng dẫn tích hợp Voice AI API cơ bản.
Bắt đầu với ElevenLabs API (Miễn phí) →
Thân ái, ElevenLabs Lab. ⚡