· api / speech-to-text / stt
API speech-to-text tốt nhất cho podcast năm 2026: so sánh
Deepgram Nova-3 cho tốc độ và free tier lớn nhất. AssemblyAI Universal-2 nếu transcript intelligence là trọng tâm sản phẩm. So sánh giá và WER benchmark.
Bởi Ethan · Cập nhật 31 tháng 5, 2026
2.300 từ · 12 phút đọc
Với hầu hết developer cần API speech-to-text cho podcast, Deepgram Nova-3 là lựa chọn mặc định — nhanh nhất, free tier lớn nhất, và đủ đơn giản để ship trong một buổi chiều. Nhưng nếu sản phẩm của bạn sống nhờ transcript intelligence (show notes, topic detection, sentiment của speaker), AssemblyAI Universal-2 xứng đáng với mức giá cao hơn một chút nhờ độ chính xác tốt nhất trên audio podcast thực tế.
Bài này dành cho ai
Developer đang xây dựng ứng dụng podcast, pipeline transcription, hoặc bất kỳ sản phẩm nào cần biến audio thành văn bản. Bạn đang chọn API, không phải dịch vụ kéo-thả. Nếu bạn muốn trình chỉnh sửa trực quan mà không cần viết code, đây không phải bài đó.
Cách chúng tôi kiểm tra các API speech-to-text
Số liệu WER (word error rate) lấy từ CodeSOTA 2026 benchmark, chạy trên tập hợp 50 giờ gồm bản ghi call centre, podcast và cuộc họp ở nhiều mức SNR khác nhau — thu âm ngoài thực địa, nhiều speaker, chất lượng micro không đồng đều. Đây là điều kiện khắc nghiệt hơn nhiều so với studio sạch — và đó mới là thứ quan trọng khi người dùng upload các tập bình thường của họ.
Giá được cập nhật từ tài liệu của từng provider vào ngày 2026-05-31. Điều kiện free tier có thể thay đổi; hãy xác minh trước khi cam kết.
Chúng tôi đánh giá trực tiếp bốn provider (Deepgram, AssemblyAI, Rev AI, OpenAI) và thu thập dữ liệu Gladia từ tài liệu và benchmark công khai. Gladia, Rev AI và OpenAI gpt-4o-transcribe không có trong CodeSOTA 2026, nên không có số liệu WER so sánh cho các provider này — khoảng trống đó được ghi chú ở những chỗ liên quan.
Giá được xác minh bằng cách tạo tài khoản và đối chiếu với tài liệu thanh toán của từng provider, không phải scrape từ trang marketing. Free tier được xác minh theo cách tương tự. Đây là số liệu tại một thời điểm cụ thể; giá trên các nền tảng API thay đổi mà không báo trước.
Các đối thủ
Deepgram Nova-3 — tốt nhất cho hầu hết trường hợp
Nova-3 Mono đạt WER 8.2% trên tập podcast của CodeSOTA. Cạnh tranh tốt, nhưng không phải số cao nhất. Ưu thế thực sự của Deepgram là độ trễ: khoảng 450ms end-to-end cho async call. API cũng là thứ dễ tích hợp nhất trong nhóm.
Giá: $0.0077/phút cho transcription pre-recorded. Thêm diarization (nhãn speaker) ở $0.0020/phút thì thành $0.0097/phút. Một tập podcast 60 phút tốn $0.46 không có nhãn speaker, $0.58 nếu có. Diarization không bao gồm trong giá cơ bản — hãy hiển thị cả hai con số khi tính chi phí.
Free tier: $200 credit. Đủ để transcribe khoảng 25.900 phút trước khi phát sinh chi phí.
Một lời gọi transcription mẫu:
from deepgram import DeepgramClient
dg = DeepgramClient("YOUR_API_KEY")
with open("episode.mp3", "rb") as f:
response = dg.listen.rest.v("1").transcribe_file(
{"buffer": f.read(), "mimetype": "audio/mp3"},
{"model": "nova-3", "smart_format": True}
)
print(response["results"]["channels"][0]["alternatives"][0]["transcript"])
smart_format tự xử lý dấu câu và ngắt đoạn mà không cần gọi API thêm. Với podcast nhiều speaker, thêm "diarize": True vào dict options — nhãn speaker sẽ nằm trong mảng words của response.
Deepgram cũng có free tier lớn nhất trong nhóm này. $200 đủ để transcribe toàn bộ kho tập cũ của một podcast trước khi trả một xu — đây là điểm khởi đầu ít rủi ro nhất cho tích hợp mới.
Phù hợp nhất: indie builder, developer ứng dụng podcast, team muốn tích hợp nhanh với mức giá cố định theo phút.
AssemblyAI Universal-2 — độ chính xác tốt nhất
Universal-2 đạt WER 7.9% trên tập podcast của CodeSOTA — số cao nhất trong bài so sánh này. Khoảng cách so với Deepgram (0.3 điểm phần trăm) không quan trọng với hầu hết trường hợp, nhưng nó có thực và có thể tái hiện.
Điểm khác biệt của AssemblyAI nằm ở những gì đi kèm với transcript. Cùng một API call trả về văn bản cũng có thể trả về:
- Auto chapters — timestamp và tiêu đề chủ đề, sẵn sàng dán vào show notes
- Topic detection — danh mục IAB taxonomy để phân loại nội dung
- Sentiment analysis — điểm sentiment theo từng câu và từng speaker
- PII redaction — lọc bỏ tên, số điện thoại và thông tin thẻ khỏi transcript trước khi rời API
Đây không phải tính năng đính thêm — chúng nằm trong cùng một async transcription request. Nếu sản phẩm của bạn là “tạo show notes tự động”, “tóm tắt tập podcast”, hay “kiểm duyệt nội dung podcast”, Universal-2 đã làm phần việc mà bình thường cần thêm một lần gọi LLM riêng.
Giá: async transcription $0.0025/phút. Thêm diarization ở $0.00033/phút. Một tập 60 phút tốn $0.15 cho transcript, $0.17 nếu có nhãn speaker.
Universal-2 chỉ hỗ trợ async upload. Pipeline ghi âm trực tiếp dùng Universal-3 Pro — một model khác, không nằm trong bài này.
Free tier: $50 credit.
Lời gọi async cơ bản với chapters được bật:
import assemblyai as aai
aai.settings.api_key = "YOUR_API_KEY"
config = aai.TranscriptionConfig(
auto_chapters=True,
speaker_labels=True,
sentiment_analysis=True,
)
transcript = aai.Transcriber().transcribe("episode.mp3", config)
for chapter in transcript.chapters:
print(f"{chapter.start}ms — {chapter.headline}")
Phù hợp nhất: sản phẩm dùng transcript làm nguyên liệu thô — công cụ tạo show notes, pipeline kiểm duyệt nội dung, engine khám phá podcast.
Rev AI Reverb — diarization tích hợp sẵn, không phụ phí
Rev AI tính giá diarization theo cách khác: đã bao gồm trong $0.0033/phút cơ bản cho tối đa 8 speaker — không phụ phí, không dòng thanh toán riêng. Một tập podcast 60 phút với nhãn speaker đầy đủ tốn $0.20.
Điểm khác biệt mà không provider nào khác ở đây có: human fallback. Ở $1.99/phút, bạn có thể chuyển audio sang đội transcription chuyên nghiệp của Rev khi độ chính xác không thể thương lượng. Nếu bạn đang xây dựng pipeline lai (API cho khối lượng lớn, con người cho trường hợp ngoại lệ), Rev AI là vendor duy nhất bao phủ cả hai từ một hợp đồng.
Giá: $0.0033/phút, diarization bao gồm cho tối đa 8 speaker.
Free tier: 5 giờ.
Lưu ý riêng với Rev AI: Reverb ưu tiên tiếng Anh. Không có dữ liệu WER từ CodeSOTA (Rev AI không có trong lần chạy 2026). Đừng so sánh cột Rev AI trong bảng với số của Deepgram hay AssemblyAI về độ chính xác — đây là bề mặt đo lường khác nhau.
Phù hợp nhất: podcast tiếng Anh muốn diarization tích hợp sẵn không phụ phí, hoặc cần human fallback cho các bản ghi mà độ chính xác là yêu cầu sống còn.
OpenAI gpt-4o-transcribe — chỉ dành cho team đã dùng hệ sinh thái OpenAI
gpt-4o-transcribe không có trong CodeSOTA 2026, nên không có số liệu WER so sánh. Ở $0.006/phút, đây là lựa chọn đắt nhất trong bài; độ chính xác trên audio nhiễu ngoài thực tế so với các provider khác chưa được xác minh.
Lý do cân nhắc nó khá hẹp: nếu sản phẩm của bạn đã ăn sâu vào hệ sinh thái OpenAI — Assistants API, function calling, structured outputs — thì giữ transcription cùng provider giúp giảm bề mặt xác thực, số lượng vendor và độ phức tạp hóa đơn. Đây là đánh đổi hợp lý với một số team.
Giới hạn cứng bạn cần biết: file tối đa 25 MB. Một tập podcast 60 phút encode ở 128 kbps nặng khoảng 55 MB. Mỗi tập phải được chunking trước khi gửi lên API. Chunking tạo seam artifact tại các điểm cắt và đòi hỏi logic để tìm ranh giới silence phù hợp. Nếu các tập của bạn luôn dưới 25 MB (khoảng 25 phút ở 128 kbps, hoặc dài hơn ở bitrate thấp hơn), giới hạn này không ảnh hưởng. Ngược lại, hãy tính toán thời gian kỹ thuật cần thiết.
Model diarization tồn tại riêng biệt. Tính đến thời điểm CodeSOTA 2026 chạy, nó kém trưởng thành hơn so với Deepgram hay AssemblyAI. Nếu bạn cần nhãn speaker kết hợp với transcript gpt-4o, hãy tính thêm thời gian test — hai model call cần được đối chiếu theo cùng word boundary, làm tăng độ phức tạp tích hợp.
Phù hợp nhất: team đã dùng hạ tầng OpenAI, muốn một vendor duy nhất và chấp nhận đánh đổi về độ chính xác cũng như overhead của chunking.
Gladia — dự án EU/GDPR, hơn 100 ngôn ngữ
Gladia xử lý audio tại data center EU và hỗ trợ hơn 100 ngôn ngữ qua model Solaria-1. Diarization được bao gồm. Nếu bạn xây dựng sản phẩm ở Châu Âu với yêu cầu data residency theo GDPR, Gladia giúp bỏ qua cuộc đàm phán compliance mà bạn sẽ phải có với các provider Mỹ.
Giá: gói Starter $0.0102/phút — không cạnh tranh so với các provider khác. Gói Growth giảm xuống khoảng $0.0033/phút với cam kết về khối lượng. Khoảng cách giữa hai gói khá lớn; con số trên trang giá không phải con số bạn sẽ trả ở quy mô đáng kể.
Free tier: 10 giờ mỗi tháng.
Chúng tôi không có dữ liệu WER cho Solaria-1 trên tập podcast CodeSOTA; Gladia không có trong lần chạy 2026. Hãy coi độ chính xác của Gladia là chưa xác định trong bài so sánh này.
Phù hợp nhất: sản phẩm có trụ sở tại EU với yêu cầu data residency theo GDPR, nền tảng podcast đa ngôn ngữ cần hỗ trợ 30+ ngôn ngữ như một tính năng thực sự.
Bảng so sánh
| Provider | Model | Giá/phút (transcription) | Diarization | WER (corpus podcast) | Free tier |
|---|---|---|---|---|---|
| AssemblyAI | Universal-2 | $0.0025 | +$0.00033/phút | 7.9% | $50 credit |
| Deepgram | Nova-3 Mono | $0.0077 | +$0.002/phút | 8.2% | $200 credit |
| Rev AI | Reverb | $0.0033 | Bao gồm (≤8 speaker) | n/a¹ | 5 giờ |
| OpenAI | gpt-4o-transcribe | $0.006 | Model riêng biệt | n/a¹ | Không có |
| Gladia | Solaria-1 | $0.0102² | Bao gồm | n/a¹ | 10 giờ/tháng |
¹ Không có trong CodeSOTA 2026 benchmark.
² Gói Gladia Growth giảm xuống ~$0.0033/phút với cam kết về khối lượng.
Nguồn WER: CodeSOTA 2026 benchmark, tập hợp 50 giờ gồm bản ghi call centre, podcast và cuộc họp ở nhiều mức SNR.
Kết luận
Chọn Deepgram Nova-3 nếu: bạn muốn ship nhanh, văn bản transcript là sản phẩm cuối, và $200 credit là khởi điểm tốt hơn $50 của AssemblyAI.
Chọn AssemblyAI Universal-2 nếu: bạn cần chapters, topics hoặc sentiment tích hợp trong cùng một response. Ưu thế độ chính xác so với Deepgram không đáng kể trên hầu hết audio; bộ công cụ NLP mới là lý do thực sự.
Chọn Rev AI Reverb nếu: podcast của bạn là tiếng Anh, bạn muốn diarization tích hợp sẵn không phụ phí, hoặc cần human fallback ở $1.99/phút cho các bản ghi mà độ chính xác không thể thương lượng.
Chọn OpenAI gpt-4o-transcribe nếu: bạn đã dùng hạ tầng OpenAI, một vendor duy nhất giúp đơn giản hóa stack, và bạn có thể xử lý chunking tập. Đừng chọn nó vì độ chính xác.
Chọn Gladia nếu: data residency theo GDPR là yêu cầu bắt buộc, bạn cần hỗ trợ đa ngôn ngữ rộng, và sẵn sàng thương lượng gói Growth trước khi so sánh chi phí.
Azure Cognitive Services và AWS Transcribe không có trong bài này — cả hai đều đòi hỏi cam kết hạ tầng cloud hiện có, khiến chúng trở thành lựa chọn mặc định cho team đã dùng các nền tảng đó, không phải điểm khởi đầu cho tooling podcast mới.
Nếu pipeline của bạn dùng transcript làm đầu vào cho LLM — tạo show notes, trích xuất chủ đề, kiểm duyệt nội dung — xem so sánh LLM router tốt nhất để quản lý chi phí model ở quy mô. Nếu bạn đang xây dựng vòng lặp audio đầy đủ có cả tổng hợp giọng nói, so sánh API text-to-speech tốt nhất cho phần đầu ra.
Lưu ý
Giới hạn 25 MB của OpenAI là yêu cầu pipeline thực sự: tập podcast 60 phút ở 128 kbps nặng 55 MB. Hãy lên kế hoạch cho chunker nếu bạn chọn hướng này; đây không phải giới hạn mềm.
Diarization của Deepgram là add-on: giá cơ bản $0.0077/phút cho pre-recorded; với nhãn speaker là $0.0097/phút. Dùng đúng con số cho trường hợp của bạn.
Giá async vs. streaming của AssemblyAI: async ($0.0025/phút) dành cho upload post-production. Streaming ($0.0075/phút) dành cho pipeline ghi âm trực tiếp. Transcription podcast hầu như luôn là async. Xác minh endpoint nào tích hợp của bạn đang gọi.
Khoảng trống WER của Rev AI và Gladia: hai provider này không có trong CodeSOTA 2026 benchmark. Độ chính xác của họ so với Deepgram và AssemblyAI chưa xác định trong bài so sánh này. Nếu độ chính xác tương đương là quan trọng, hãy tự chạy test trên mẫu audio đại diện của bạn trước khi cam kết.
Hãy test với audio của chính bạn: tập dữ liệu CodeSOTA là 50 giờ gồm bản ghi call centre, podcast và cuộc họp ở nhiều mức SNR — không phải podcast của bạn. WER thay đổi theo chất lượng micro, giọng địa phương của speaker, tiếng ồn nền và từ vựng chuyên ngành. Trước khi cam kết ở quy mô lớn, hãy chạy thử 10 tập qua ít nhất hai provider và đo độ chính xác so với đoạn được xác minh thủ công. Số benchmark chỉ là điểm khởi đầu.