· tts / text-to-speech / api

API text-to-speech tốt nhất năm 2026: Xếp hạng và so sánh

ElevenLabs dẫn đầu về chất lượng giọng nói, Cartesia về độ trễ streaming, Google về chi phí. So sánh 8 TTS API qua TTS Arena V2, P50 latency và giá cả.

Bởi

2.853 từ · 15 phút đọc

Chọn ElevenLabs nếu chất lượng giọng nói là thứ tạo nên sản phẩm. Chọn Cartesia nếu bạn đang xây dựng agent thời gian thực — mỗi mili giây độ trễ đều cảm nhận được. Chọn Google Cloud TTS nếu cần triển khai ở quy mô lớn với tiếng Việt (hoặc bất kỳ ngôn ngữ Đông Nam Á nào) mà không phải đoán mò. Với hầu hết developer mới bắt đầu, $200 credit không hết hạn của Deepgram là cách ít rủi ro nhất để đánh giá một API text-to-speech trước khi chốt gói.

Bài này dành cho ai

Backend developer đang tích hợp speech synthesis vào sản phẩm — AI agent hội thoại, tính năng hỗ trợ người dùng khiếm thị, tự động hóa podcast, hoặc IVR. Nếu bạn đang so sánh các model chạy trên thiết bị (Piper, Coqui) hoặc tự xây dựng pipeline nhân bản giọng nói từ đầu, bài này không phù hợp.

Cách chúng tôi đánh giá

Chất lượng: Bảng xếp hạng TTS Arena V2 (HuggingFace, cập nhật tháng 5/2026). Điểm Elo từ bình chọn của người dùng thực, so sánh cặp đôi mù, cùng phương pháp với Chatbot Arena. Top 10 thực tế tính đến tháng 5/2026: CastleFlow v1.0, Vocu V3.0, Inworld TTS MAX, Inworld TTS, Hume Octave, Papla P1, MiniMax Speech-02-Turbo, Eleven Turbo v2.5 (~1539 Elo), MiniMax Speech-02-HD, Eleven Flash v2.5 (~1531). Trong số các provider được xem xét ở đây, chỉ ElevenLabs có mặt trong top 10 — với ba model: Eleven Turbo v2.5 (#8), Eleven Flash v2.5 (#10), Eleven Multilingual v2 (#11, ~1528).

Độ trễ streaming: Picovoice tts-latency-benchmark (chạy Gradium 2026) để xác định thứ tự tương đối. Benchmark đo P50 thời gian đến audio đầu tiên (TTFA) từ cold start; kết quả cho một số engine (Deepgram Aura-2, Cartesia Sonic-3) chỉ có trong biểu đồ và không thể xác nhận dưới dạng số cụ thể — với các engine này chúng tôi dùng mô tả định tính thay cho con số ms. Hãy xem các thông tin về độ trễ trong bài này là định hướng, không phải SLA.

Giá cả: Trang pricing chính thức, kiểm tra tháng 5/2026. Giá hiệu dụng mỗi triệu ký tự, không tính chiết khấu theo volume trừ khi có ghi chú. Giá Azure Neural là tạm thời; hãy xác nhận trước khi ký hợp đồng.

Gói miễn phí: Xác minh theo quy trình đăng ký hiện tại của từng provider.

Bảng so sánh

ProviderChất lượng (TTS Arena V2 Elo)P50 latency (TTFA)$/1M ký tựVoice cloningTiếng ViệtGói miễn phí
Google Cloud TTSKhông có trong top 10Chưa đoWaveNet/Neural2: $16Không✅ WaveNet+Neural21M WaveNet ký tự/tháng
ElevenLabs (Turbo v2.5 / Flash v2.5)#8 ~1539 Elo (Turbo v2.5)Dưới 300ms (Turbo v2.5)~$165 (gói Pro)✅ (cần đồng ý)✅ (Multilingual v2)10K ký tự/tháng
AWS PollyKhông có trong top 10Chưa đoStandard $4 / Neural $16 / Generative $30Không5M std + 1M neural, 12 tháng đầu
OpenAI tts-1 / tts-1-hdKhông có trong top 10Biến thiên cao$15 / $30KhôngKhông có
Deepgram Aura-1/2Không có trong top 10Trung bình (Aura-2)$15 / $30Không$200 credit, không hết hạn
Cartesia Sonic-3Không có trong top 10Thấp nhất trong các provider~$30 (gói Scale)✅ ($4/tháng)Credit dùng thử
Azure Neural TTSKhông có trong top 10Chưa đo~$15–16 / HD ~$22†KhôngKhông có
PlayHTKhông có trong top 10Chưa đoThay đổi theo gói✅ (30 giây audio)2.500 từ dùng thử

† Giá Azure Neural là tạm thời tính đến tháng 5/2026 — xác nhận trước khi ký.

Phân tích từng provider

ElevenLabs

Provider dẫn đầu về chất lượng trong bài so sánh này trên TTS Arena V2, với ba model trong top 11 của bảng xếp hạng: Eleven Turbo v2.5 (#8, Elo ~1539), Eleven Flash v2.5 (#10, ~1531), Eleven Multilingual v2 (#11, ~1528). Không có provider nào khác trong bài xếp hạng này lọt top 10. Turbo v2.5 nghe rõ ràng tốt hơn tất cả các lựa chọn còn lại về giọng có cảm xúc — xử lý nhấn mạnh, nhịp điệu và sắc thái cảm xúc theo cách mà các model giá $30/1M không làm được.

Điểm trừ là giá. Ở gói Pro ($99/tháng cho 600K ký tự), bạn đang trả khoảng $165 mỗi triệu ký tự. Ở quy mô lớn — ví dụ 50 triệu ký tự mỗi tháng — con số là $8.250/tháng trước khi thương lượng. Nếu bạn đang xây dựng pipeline khối lượng lớn mà chất lượng giọng nói là lợi thế cạnh tranh đáng bỏ tiền, bài toán có thể hợp lý. Nếu bạn cần giải pháp tiết kiệm chi phí hoặc chỉ làm narration nền, thì không.

Độ trễ streaming qua Turbo v2.5 và Flash v2.5 dưới 300ms trong thực tế. Cả hai không sánh được Cartesia cho các ứng dụng thời gian thực nghiêm ngặt, nhưng đủ dùng cho hầu hết AI agent hội thoại.

Voice cloning yêu cầu sự đồng ý rõ ràng từ chủ nhân giọng nói và phải gắn nhãn theo EU AI Act (bắt buộc từ tháng 8/2026). Nếu bạn nhân bản giọng nói từ người dùng hoặc nhân vật công chúng, các quy định về dữ liệu sinh trắc học theo GDPR sẽ áp dụng.

Bắt đầu: ElevenLabs — 10K ký tự miễn phí/tháng, không cần thẻ tín dụng.

Google Cloud TTS

Google Cloud TTS không có mặt trong top 10 của TTS Arena V2 — bảng xếp hạng không có entry nào cho các model TTS production của Google tính đến tháng 5/2026. Nhiều team đã có Google Cloud trong stack và chưa bao giờ chạy đánh giá chất lượng thực sự — đó chính xác là rủi ro: gói miễn phí hào phóng và SDK quen thuộc khiến bạn dễ đưa lên production mà không benchmark.

Mô hình giá là thoải mái nhất trong các provider có chất lượng cạnh tranh: 1 triệu ký tự WaveNet hoặc Neural2 mỗi tháng, liên tục, không hết hạn. WaveNet ($16/1M) là lựa chọn chủ lực. Studio ($160/1M) dành cho sản xuất broadcast. Voice tiêu chuẩn $4/1M nếu bạn cần mức giá sàn và không quan trọng chất lượng.

Google Cloud TTS là provider duy nhất trong bài có xác nhận hỗ trợ tiếng Việt ở tầng chất lượng WaveNet và Neural2. MINT-Bench (tháng 4/2026) không bao gồm tiếng Việt — không có benchmark TTS đa ngôn ngữ chuẩn hóa nào bao phủ tiếng Việt. Nếu tiếng Việt là yêu cầu bắt buộc, hãy đánh giá với người bản ngữ trên bộ test bạn tự kiểm soát.

Không có voice cloning. Không có dữ liệu độ trễ streaming trong benchmark Picovoice.

AWS Polly

Rẻ ở tầng standard ($4/1M), và AWS đã có sẵn trong hầu hết infrastructure stack. Một giới hạn cứng cần lưu ý: API SynthesizeSpeech chỉ cho phép tối đa 3.000 ký tự được tính phí mỗi request — thẻ SSML không được tính vào giới hạn này — kèm giới hạn 10 phút audio. Với narration dài hoặc chương sách, bạn phải dùng async API StartSpeechSynthesisTask. Nếu bạn đang xây dựng pipeline podcast và nghĩ có thể stream tập 20 phút qua endpoint đồng bộ, thì không được.

Neural voices ($16/1M) lạc hậu hơn một thế hệ so với Google và ElevenLabs. Generative voices ($30/1M) thu hẹp phần nào khoảng cách nhưng không có mặt trong top 10 của TTS Arena V2. Gói miễn phí dùng được 12 tháng — 5M ký tự standard và 1M neural mỗi tháng. Sau 12 tháng tính giá thông thường.

Không có voice cloning. Không hỗ trợ tiếng Việt.

OpenAI

tts-1 ($15/1M) đủ dùng cho speech thực dụng — IVR, hỗ trợ tiếp cận, narration không đòi hỏi cao. tts-1-hd ($30/1M) tốt hơn nhưng vẫn không bằng ElevenLabs trên TTS Arena V2. Vấn đề lớn hơn là độ trễ: Picovoice benchmark cho thấy tts-1-hd có độ biến thiên cao, khiến nó là lựa chọn không phù hợp cho agent thời gian thực khi bạn cần TTFA ổn định.

Lợi thế chính là tính năng API. Nếu bạn đã dùng OpenAI cho language model, thêm TTS chỉ là vài dòng code trên SDK quen thuộc.

Không có gói miễn phí. Không có voice cloning. Không hỗ trợ tiếng Việt.

Deepgram

Điểm mạnh của Deepgram là trải nghiệm developer ở gói miễn phí: $200 credit, không hết hạn, không cần thẻ tín dụng khi đăng ký. Aura-1 ở $15/1M và Aura-2 ở $30/1M có giá cạnh tranh, nhưng cả hai đều không có mặt trong top 10 của TTS Arena V2.

Aura-2 có độ trễ cao nhất trong số các provider tập trung vào streaming được xem xét ở đây, nhưng vẫn dùng được cho pipeline không đồng bộ. Số liệu P50 cụ thể từ Picovoice benchmark không thể xác nhận cho Deepgram Aura-2 (kết quả ở dạng biểu đồ, không phải văn bản); hãy xem nhận định định hướng này là tham khảo. Credit không hết hạn khiến nó là lựa chọn ít rủi ro nhất cho các team đang đánh giá TTS trước khi chọn provider.

Bắt đầu: Deepgram — $200 credit, không cần thẻ tín dụng, không hết hạn.

Cartesia

Provider dẫn đầu về độ trễ. Cartesia định vị Sonic-3 là lựa chọn TTS production có độ trễ thấp nhất, và nhận định đó nhất quán với các benchmark tự báo cáo của họ. Số liệu P50 cụ thể từ Picovoice benchmark không thể xác nhận cho Sonic-3 (kết quả ở dạng biểu đồ, không phải văn bản), nên chúng tôi bỏ các con số ms cụ thể. Với voice agent thời gian thực mà độ trễ nghe thấy được và gây khó chịu, lợi thế định hướng của Cartesia là đáng tin — hãy tự đo trong môi trường triển khai của bạn.

Giá theo credit: khoảng $30/1M ở gói Scale, nhưng Cartesia không công bố tỷ lệ quy đổi credit sang ký tự trực tiếp. Xác nhận trước khi cam kết volume lớn.

Voice cloning có từ $4/tháng với turnaround tức thì. Sonic-3 không có trong top 10 của TTS Arena V2, nên đánh đổi rõ ràng: bạn có độ trễ streaming thấp nhất trên thị trường, không phải giọng nói có cảm xúc nhất.

PlayHT

Voice cloning từ 30 giây audio, có ở gói Creator. Chất lượng thấp hơn ElevenLabs khi so sánh trực tiếp. Đáng thử nghiệm nếu bạn đang xây dựng sản phẩm nhân bản giọng nói và muốn so sánh độ trung thực của bản sao, nhưng không phải lựa chọn đầu tiên cho pipeline TTS thực dụng.

Azure Neural TTS

Xác nhận hỗ trợ tiếng Việt, đặt nó ngang hàng với Google cho yêu cầu ngôn ngữ Đông Nam Á. Giá là tạm thời tính đến tháng 5/2026 (~$15–16/1M cho Neural tiêu chuẩn, ~$22/1M cho HD Neural) — hãy kiểm tra Azure pricing calculator trước khi ký. Không có voice cloning. Không có trong top 10 của TTS Arena V2.

API text-to-speech nào phù hợp cho bạn

Agent hội thoại thời gian thực: Cartesia Sonic-3. Cartesia tự báo cáo độ trễ streaming thấp nhất trong số các provider ở đây, và nhận định đó nhất quán. Độ trễ là thứ bạn cảm nhận được — hãy tự đo trong môi trường của bạn, nhưng Cartesia là điểm khởi đầu đúng. Nếu bạn cũng cần chọn LLM router cho cùng pipeline agent, xem LLM router tốt nhất năm 2026.

Chất lượng giọng nói là lợi thế cạnh tranh: ElevenLabs (Turbo v2.5 hoặc Flash v2.5). Ba entry trong top 11 của TTS Arena V2; không provider nào khác trong bài so sánh này có mặt.

Narration khối lượng lớn hoặc nhạy cảm về chi phí: Google Cloud WaveNet/Neural2 ở $16/1M với 1M ký tự miễn phí/tháng, hoặc AWS Polly Standard ở $4/1M cho speech thực dụng. Lưu ý giới hạn 3.000 ký tự tính phí của Polly nếu bạn làm nội dung dài (thẻ SSML không được tính).

Tiếng Việt hoặc ngôn ngữ Đông Nam Á: Google Cloud TTS (WaveNet + Neural2 đã xác nhận). Azure Neural cũng hỗ trợ nhưng giá tạm thời. Không có benchmark nào bao phủ tiếng Việt — hãy đánh giá với người bản ngữ.

Ngân sách đánh giá: $200 credit không hết hạn của Deepgram. Không provider nào khác cung cấp điểm khởi đầu không rủi ro ở quy mô này. Để hiểu chi phí tổng thể khi xây dựng AI agent có TTS, xem Chi phí thực tế vận hành đội AI agent năm 2026.

Indie hacker, side project: Deepgram để đánh giá, sau đó Google Cloud TTS cho production — gói 1M ký tự WaveNet miễn phí/tháng đủ cho hầu hết side project mà không tốn đồng nào.

Tiếng Việt trong TTS — những gì dữ liệu không nói được

Google Cloud TTS (WaveNet + Neural2) và Azure Neural TTS đều hỗ trợ tiếng Việt chính thức. ElevenLabs Multilingual v2 cũng tuyên bố hỗ trợ, nhưng không có dữ liệu benchmark để đánh giá.

MINT-Bench (tháng 4/2026) là benchmark TTS đa ngôn ngữ gần đây nhất trong tài liệu học thuật — và nó không bao gồm tiếng Việt. Tính đến tháng 5/2026, chưa có phương pháp đánh giá chuẩn hóa nào cho chất lượng TTS tiếng Việt. Hệ quả: bạn không thể ủy thác quyết định này cho một bảng xếp hạng. Hãy chọn provider, chạy bộ test trên nội dung thực tế của bạn, và đánh giá với người bản ngữ có phản hồi bạn tin tưởng.

Tuân thủ pháp lý với voice cloning

Ba provider cung cấp voice cloning. Bức tranh pháp lý khác biệt đáng kể.

ElevenLabs: Yêu cầu sự đồng ý rõ ràng từ chủ nhân giọng nói theo điều khoản dịch vụ. Từ tháng 8/2026, việc gắn nhãn theo EU AI Act là bắt buộc đối với audio do AI tạo ra — mọi giọng nói tổng hợp đến tay người dùng cuối đều phải được công bố là do AI tạo. Nếu bạn thu thập mẫu giọng nói từ người dùng, audio đó là dữ liệu sinh trắc học theo GDPR. Các quy định về lưu trữ, xóa dữ liệu và chuyển dữ liệu xuyên biên giới đều áp dụng.

Cartesia: Clone tức thì từ $4/tháng. Điều khoản ít nghiêm ngặt hơn ElevenLabs về quy trình đồng ý, nhưng các nghĩa vụ theo EU AI Act và GDPR tương tự vẫn áp dụng nếu bạn hoạt động trong EU.

PlayHT: 30 giây audio, gói Creator. Nghĩa vụ tương tự Cartesia cho triển khai tại EU.

OpenAI, AWS Polly, Deepgram: Không có voice cloning.

Nếu bạn đang xây dựng sản phẩm nhân bản giọng nói của người dùng cuối, yêu cầu gắn nhãn theo EU AI Act không phải tùy chọn với người dùng EU. Hãy tích hợp việc công bố vào UX trước khi đưa lên production.

Lưu ý

Số liệu P50 TTFA cụ thể cho Deepgram Aura-2 và Cartesia Sonic-3 không thể xác nhận từ văn bản Picovoice tts-latency-benchmark (kết quả ở dạng biểu đồ, không phải văn bản). Chúng tôi đã xóa các con số ms cụ thể và thay bằng mô tả định tính. Lợi thế độ trễ của Cartesia là định hướng — nhất quán với các benchmark tự báo cáo nhưng chưa được đo độc lập. Hãy tự xác nhận trong môi trường triển khai của bạn trước khi đưa ra quyết định kiến trúc nhạy cảm về độ trễ.

Giá Azure Neural TTS là tạm thời tính đến tháng 5/2026. Hãy kiểm tra Azure pricing calculator trước khi cam kết.

Tỷ lệ quy đổi credit sang ký tự của Cartesia không được công bố. Con số ~$30/1M được suy ra từ giá credit gói Scale — xác nhận trực tiếp với Cartesia sales cho cam kết volume lớn.

ElevenLabs và Deepgram là đối tác affiliate của toolchew. Trạng thái affiliate không ảnh hưởng đến xếp hạng hay nhận định.

Tài liệu tham khảo