ElevenLabs API giảm giá tới 55%! Hướng dẫn chi tiết về tính phí theo mức sử dụng

Với việc giảm giá tới 55% và áp dụng cơ chế tính phí theo mức sử dụng từ tháng 5/2026, rào cản gia nhập ElevenLabs API đã giảm đáng kể. Bài viết này hướng dẫn chi tiết cho các nhà phát triển bắt đầu tích hợp: từ tiêu chí chọn mô hình (Flash, Multilingual v2, v3), cấu trúc gói và tín dụng (credit), ví dụ gọi API bằng Python, cho đến mô phỏng chi phí thực tế cho các dự án như lồng tiếng YouTube và audiobook. Tối ưu hóa chi phí AI ngay hôm nay với hướng dẫn toàn diện của chúng tôi.

🎯 Bạn sẽ nắm bắt được gì trong bài viết này?

• Cập nhật quan trọng từ tháng 5/2026: Giảm giá (lên tới 55%) + áp dụng hình thức trả phí theo mức sử dụng thực tế (PAYG)
• So sánh Flash, Multilingual v2 và Eleven v3 — Bảng tóm tắt giúp chọn model phù hợp trong tích tắc
• Bảng cấu trúc gói & credit (từ gói Free $0 đến Business $990)
Đoạn mã (snippet) mẫu để bạn tạo giọng nói đầu tiên bằng Python
• Mô phỏng chi phí thực tế cho các nhu cầu: 10 video YouTube/tháng hoặc 1 sách nói (audiobook)

 

📌 Lời mở đầu

Xin chào, chúng tôi là ElevenLabs Lab.

Rất nhiều nhà phát triển đã từng "ngắm nghía" API của ElevenLabs nhưng lại chùn bước vì lo ngại "chất lượng tốt nhưng giá thành cao". Tuy nhiên, vào ngày 7 tháng 5 năm 2026, ElevenLabs đã chính thức công bố giảm giá API tới 55% và áp dụng cơ chế Pay-As-You-Go (PAYG) — một thay đổi mang tính bước ngoặt.

Đơn cử như với model Flash, chi phí đã giảm từ $0.11 xuống còn $0.05 cho mỗi 1.000 ký tự.

Bài viết này là "bản đồ khởi đầu" dành cho những bạn đang bắt đầu tích hợp. Nếu bạn cần so sánh với các đối thủ cạnh tranh trước khi quyết định, hãy đọc ngay bài viết So sánh ElevenLabs, Google TTS và Polly.

 

 

📖 Nếu bạn mới bắt đầu — Hãy nắm rõ 4 thuật ngữ này ⚡

API = "Cây cầu" để ứng dụng của bạn kết nối và sử dụng các tính năng của ElevenLabs.
API Key = "Thẻ thông hành" để truy cập vào tài khoản. Tuyệt đối không chia sẻ thông tin này cho người khác.
Credit = Đơn vị sử dụng dựa trên số ký tự. Bạn được nạp mỗi tháng theo gói và sẽ bị trừ dần khi tạo âm thanh.
Streaming = Cách phát âm thanh ngay lập tức khi dữ liệu được tạo ra thay vì chờ đợi toàn bộ tệp hoàn tất. Phù hợp cho chatbot hoặc các ứng dụng cần phản hồi thời gian thực.

 

🧠 1. Chọn model nào? Xem ngay bảng này

Model

Giá (1.000 ký tự)

Ngôn ngữ

Phù hợp cho

Flash v2.5 / Turbo

$0.05

32 (Hỗ trợ tiếng Việt ✓)

Chatbot, phản hồi thời gian thực, xử lý khối lượng lớn. Tốc độ suy luận khoảng 75ms.

Multilingual v2

$0.10

29 (Hỗ trợ tiếng Việt ✓)

Kể chuyện dài, sách nói, hoặc lồng tiếng với chất lượng ổn định.

Eleven v3

$0.10

70+

Nội dung cần biểu cảm qua các Audio Tags như [excited], [whispers] (Xem bài review v3)

▲ Nguồn: elevenlabs.io/pricing/api · Tài liệu model chính thức (Cập nhật tháng 6/2026)

 

Nguyên tắc đơn giản: Cần tốc độ phản hồi nhanh thì chọn Flash, cần chất lượng biểu cảm thì chọn v3 (hoặc Multilingual v2).

Vì model Flash tiêu tốn ít credit hơn, nếu dự án của bạn cần tối ưu ngân sách, hãy bắt đầu bằng Flash và chỉ nâng cấp lên các model cao cấp ở những phân đoạn đòi hỏi chất lượng đặc biệt.

 

💳 2. Cấu trúc gói cước & Credit

Gói

Giá/tháng

Credit/tháng

Lưu ý

Free

$0

10K

Phi thương mại + Bắt buộc ghi nguồn — Dùng cho nội dung kiếm tiền là vi phạm bản quyền.

Starter

$6

30K

Cho phép thương mại + Nhân bản giọng nói nhanh (1–2 phút audio).

Creator

$22 (Tháng đầu giảm 50%)

~120K

Nhân bản giọng nói chuyên nghiệp (30 phút+ audio).

Pro

$99

600K

Scale

$299

1.8M

Business

$990

6M

Vượt định mức sẽ tính theo hình thức PAYG.

▲ Nguồn: elevenlabs.io/pricing (Tháng 6/2026). Lưu ý: Hãy kiểm tra trang pricing/api để biết chính xác thông tin cho mục đích phát triển.

 

💡 Tại sao PAYG lại quan trọng? — Trước đây, nếu hết credit bạn buộc phải nâng cấp lên gói cao hơn. Bây giờ, bạn chỉ cần trả phí cho những gì bạn thực sự dùng. Điều này giúp tối ưu hóa chi phí cho các dịch vụ có lưu lượng biến động theo tháng.

 

🐍 3. Cuộc gọi API đầu tiên — Python snippet tối giản

Dưới đây là đoạn mã tối giản để chuyển văn bản thành tệp mp3 bằng SDK chính thức (thư viện `elevenlabs`):

from elevenlabs.client import ElevenLabs

client = ElevenLabs(api_key="YOUR_API_KEY")  # Lấy từ Dashboard

audio = client.text_to_speech.convert(
    voice_id="VOICE_ID",            # Voice ID bạn chọn từ Voice Library
    model_id="eleven_flash_v2_5",   # flash cho tốc độ, eleven_v3 cho chất lượng
    text="Xin chào, đây là bài kiểm tra API của ElevenLabs.",
)

with open("output.mp3", "wb") as f:
    for chunk in audio:
        f.write(chunk)

Một vài lưu ý nhỏ:

  • Cần Streaming? Hãy sử dụng endpoint `stream` thay vì `convert` và đẩy các chunk vào bộ đệm phát ngay lập tức. Điều này cực kỳ quan trọng đối với các ứng dụng chatbot hoặc trợ lý ảo cần phản hồi nhanh.

  • Bảo mật API Key — Không bao giờ lưu trữ key ở phía client (frontend). Hãy luôn gọi thông qua proxy server để tránh bị đánh cắp.

  • Khi so sánh độ trễ, hãy phân biệt giữa "Thời gian suy luận model" và "TTFB (thời gian tính cả truyền tải mạng)". Flash có tốc độ suy luận cực nhanh, nhưng trải nghiệm thực tế còn phụ thuộc vào đường truyền tới server.

 

Nhận API Key và bắt đầu miễn phí →

 

🧮 4. Mô phỏng chi phí — Dự án của bạn tốn bao nhiêu?

Dựa trên mức giá chính thức (Flash $0.05/1.000 ký tự, v3·Multilingual v2 $0.10/1.000 ký tự):

Kịch bản

Dung lượng dự kiến

Flash

v3 / Multilingual v2

10 Video YouTube/tháng

60.000 ký tự

$3.00

$6.00

1 Sách nói (Audiobook)

300.000 ký tự

$15.00

$30.00

Thông báo khách hàng

1.000.000 ký tự

$50.00

$100.00

▲ Tính toán dựa trên giá API. Chi phí thực tế có thể thấp hơn nếu gói subscription của bạn đã bao gồm sẵn một lượng credit nhất định.

 

Như bạn thấy, với nhu cầu làm nội dung thông thường, chi phí gần như không đáng kể. Việc tối ưu hóa chi phí chỉ thực sự trở nên quan trọng khi bạn xử lý quy mô lớn từ hàng triệu ký tự trở lên.

 

⚠️ 5. Checklist trước khi bắt đầu

  • Không dùng gói Free cho mục đích thương mại — Gói Free chỉ dành cho mục đích cá nhân và phải ghi nguồn. Nếu muốn kinh doanh, hãy bắt đầu từ gói Starter ($6/tháng).

  • Kiểm tra quyền nhân bản giọng nói — Tính năng Instant Voice Cloning áp dụng từ gói Starter, trong khi Professional Voice Cloning (30 phút+ audio) dành cho gói từ Creator trở lên.

  • Theo dõi tiêu thụ credit — Kiểm tra biểu đồ sử dụng trên Dashboard định kỳ. Nếu credit hết nhanh bất thường, hãy kiểm tra xem bạn đang dùng model nào.

  • Thử nghiệm thực tế — Hãy dùng cùng một đoạn text để so sánh giữa các model. Chất lượng âm thanh phụ thuộc rất nhiều vào ngôn ngữ và giọng đọc, nghe trực tiếp là cách đánh giá tốt nhất.

 

🚀 Lời kết

ElevenLabs API năm 2026 đã không còn là một dịch vụ "xa xỉ", mà trở thành công cụ dễ dàng tiếp cận cho mọi dự án. Hãy tận dụng gói miễn phí, kiểm tra âm thanh của các model, và sử dụng bảng tính trên để dự tính ngân sách cho dự án của bạn.

Nếu bạn định kết hợp với nhận diện giọng nói (STT), hãy xem thêm bài viết So sánh Scribe, Whisper và Deepgram, hoặc tham khảo Hướng dẫn tích hợp Voice AI API cơ bản.

 

Bắt đầu với ElevenLabs API (Miễn phí) →

 

Thân ái, ElevenLabs Lab. ⚡