· llm / cost-optimization / routing
LLM cost routing: khi nào Haiku thắng Opus và khi nào không
Chuyển 1M token phân loại từ Opus 4.7 sang Haiku 4.5 tiết kiệm $6.00 — giảm 80%. Đây là phân loại task, yếu tố latency, và các công cụ để triển khai.
Bởi Ethan
2.351 từ · 12 phút đọc
Chuyển 1M token đầu vào phân loại từ Claude Opus 4.7 sang Haiku 4.5 tiết kiệm $6.00 — giảm 80%. Nghiên cứu RouteLLM (ICLR 2025, arXiv:2406.18665, openreview.net/forum?id=8sSqNntaMr) cho thấy bạn có thể giảm hơn 85% chi phí trên các query hội thoại trong khi vẫn giữ 95% chất lượng của model flagship — bằng cách chỉ gửi 14% traffic lên model mạnh. Quyết định này không phải trắng hay đen; nó phụ thuộc nhiều vào loại task bạn đang routing.
Bài này dành cho ai
Các developer đang xây dựng sản phẩm LLM production khi chi phí model xuất hiện trong báo cáo ngân sách. Nếu bạn đang chạy dưới 100k token mỗi ngày, việc dựng hạ tầng routing tốn công hơn lợi ích nó mang lại — hãy chọn model rẻ và escalate khi chất lượng không đạt. Đây là hướng dẫn cho các team đã có vấn đề về volume.
Routing là gì và tại sao nó hiệu quả
Model routing nghĩa là gửi mỗi query đến model rẻ nhất có khả năng xử lý nó. Từ quan trọng là “có khả năng”. Không phải query nào cũng cần lập luận nhiều bước. Phân loại, trích xuất, và retrieval augmentation thường gần như xác định nếu prompt được viết tốt — kích thước model không tạo ra nhiều sự khác biệt ở đây.
Chênh lệch chi phí khiến câu hỏi này không thể bỏ qua. Với giá Anthropic hiện tại (tháng 5/2026, platform.claude.com/docs):
| Model | Input ($/MTok) | Output ($/MTok) |
|---|---|---|
| Claude Haiku 4.5 | $1.00 | $5.00 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| Claude Opus 4.7 | $5.00 | $25.00 |
Output của Opus đắt hơn 5 lần so với Haiku. Batch API giảm một nửa cho tất cả các tier, nhưng chênh lệch tương đối vẫn giữ nguyên. Với OpenAI, khoảng cách còn lớn hơn: GPT-4o output ($10.00/MTok) đắt hơn 16.7× so với GPT-4o-mini ($0.60/MTok).
Ví dụ cụ thể — 1M token input + 100k token output cho công việc phân loại:
| Route | Chi phí Claude | Chi phí OpenAI |
|---|---|---|
| Toàn flagship (Opus / GPT-4o) | $7.50 | $3.50 |
| Toàn rẻ (Haiku / GPT-4o-mini) | $1.50 | $0.21 |
| Tiết kiệm | $6.00 (80%) | $3.29 (94%) |
Khoảng chênh lệch này có nghĩa là ngay cả một router thô gọi đúng model 70% số lần vẫn tạo ra khoản tiết kiệm thực. Một router đạt 85% — hoàn toàn khả thi trên hầu hết các mix query, theo nghiên cứu ICLR — sẽ tạo ra kết quả ấn tượng.
Lập luận kinh tế này được củng cố bởi nghiên cứu học thuật. Bài Hybrid LLM (arXiv:2404.14618, ICLR 2024) cho thấy một learned router có thể cắt giảm đến 40% cuộc gọi đến model flagship mà không có sụt giảm chất lượng đo được. Bài routing lessons tại ACL 2024 (aclanthology.org/2024.insights-1.15.pdf) ghi lại rằng ~20% query trên các structured task thấy model nhỏ ngang bằng hoặc vượt trội model lớn — ngưỡng trần chất lượng của model rẻ cao hơn nhiều so với cảm tính thông thường.
Phân loại task: routing cái gì và escalate cái gì
Bảng dưới là điểm neo chính. Dùng nó như heuristic ban đầu, sau đó điều chỉnh theo phân phối query của bạn. Các con số tiết kiệm là ước tính dựa trên benchmark RouteLLM và giá hiện tại; mix thực tế của bạn sẽ làm lệch các con số này.
| Loại task | Route sang rẻ? | Tiết kiệm ước tính | Chênh lệch chất lượng |
|---|---|---|---|
| Phân loại nhị phân / đa nhãn | ✅ Có | 75–94% | Gần như không có |
| Trích xuất có cấu trúc (NER, slot-filling) | ✅ Có | 75–94% | Gần như không có |
| FAQ / retrieval-augmented lookup | ✅ Có | 75–80% | Không đáng kể |
| Copy marketing ngắn | ✅ Có | 60–80% | Thấp nếu theo template |
| Code formatting / linting | ✅ Có | 75–94% | Gần như không có |
| Tóm tắt (tài liệu có cấu trúc) | ✅ Có (cần tuning) | 50–75% | Thấp |
| Hội thoại nhiều lượt | ⚠️ Một phần | 74–85% | Thấp–vừa |
| QA kiến thức rộng | ⚠️ Một phần | ~45% | Vừa |
| Sinh code (không tầm thường) | ⚠️ Thường escalate | 20–35% | Đáng kể |
| Lập luận toán / chain-of-thought | ⚠️ Thường escalate | ~35% | Cao |
| Debug phức tạp / refactor nhiều file | ❌ Escalate | <20% | Rất cao |
| Tổng hợp context dài (>50k token) | ❌ Escalate | <20% | Rất cao |
| Agentic multi-step chains | ❌ Escalate | <15% | Rất cao (lỗi tích lũy) |
| Xử lý khiếu nại / cần đồng cảm | ❌ Escalate | <20% | Rủi ro về uy tín |
Tại sao độ dốc lại như vậy? Benchmark RouteLLM có tính giải thích cao. Trên MT Bench (hội thoại mở), chỉ 14% query cần model mạnh để đạt 95% chất lượng — giảm >85% chi phí. MMLU (QA kiến thức) cần 54% cuộc gọi flagship (~45% tiết kiệm). GSM8K (lập luận toán) cần 65% (~35% tiết kiệm).
Quy luật chung: task có query variance cao thì route tốt; task đòi hỏi lập luận nhiều bước nhất quán thì route kém. MT Bench có nhiều lượt hội thoại đơn giản mà model rẻ xử lý được. GSM8K yêu cầu chain-of-thought trên gần như mỗi bài toán, nên độ chính xác của model rẻ sụp đổ trên toàn bộ.
Coding là trường hợp không trực quan. Điểm SWE-bench Verified (swebench.com leaderboard, truy cập 2026-05-17): Opus 4.7 đạt 87.6%, Sonnet 4.6 đạt 79.6%, Haiku 4.5 đạt 73.3%. Khoảng cách 14.3 điểm phần trăm là thực. Cứ khoảng 1 trong 6 task coding mà Opus xử lý đúng, Haiku thất bại. Điều đó có đáng lo hay không phụ thuộc vào cái gì nằm sau một thất bại. Một task formatting sai là phiền nhỏ. Một refactor nhiều file sai có thể tốn hàng giờ đồng hồ.
Benchmark TACL summarization (doi:10.1162/tacl_a_00632) bổ sung thêm một điểm: instruction tuning quan trọng hơn kích thước model cho các structured summarization task. Model nhỏ được fine-tune trên domain của bạn có thể vượt trội model lớn tổng quát — điều này đẩy hàng “thường escalate” sang “route với tuning.”
Latency: lý do để routing ngay cả khi chi phí không phải vấn đề
Benchmark Artificial Analysis (artificialanalysis.ai, truy cập 2026-05-17):
| Model | TTFT (tốt nhất quan sát được) | Throughput (tốt nhất quan sát được) |
|---|---|---|
| Claude Haiku 4.5 | 0.60s (Google Vertex) | 103.5 t/s (Amazon) |
| Claude Opus 4.7 | 17.20s (Amazon) | 78.7 t/s (Amazon) |
Opus 4.7 chậm hơn 28–34 lần đến token đầu tiên so với Haiku 4.5. Nếu pipeline của bạn có bất kỳ thành phần real-time nào — phân loại trong request path, autocomplete cho người dùng, bất cứ điều gì có người đang chờ — Haiku là lựa chọn duy nhất có thể dùng được bất kể giá cả. Phép tính đơn giản: dù Anthropic có cho Opus miễn phí, 17 giây đến token đầu tiên vẫn loại nó khỏi mọi use case đồng bộ. Với TTFT 0.60s của Haiku, bạn có thể nối ba lời gọi model trong thời gian Opus bắt đầu phản hồi đầu tiên.
Overhead của router là không đáng kể. Classifier đắt nhất của RouteLLM chỉ thêm <0.4% vào tổng chi phí sinh — con số làm tròn nhỏ so với khoản tiết kiệm về latency và chi phí mà nó mang lại.
Các công cụ để triển khai
Ba lựa chọn ở các điểm khác nhau trên trục tự quản lý vs dùng dịch vụ có sẵn. Đây là các con trỏ ngắn gọn, không phải hướng dẫn cài đặt — theo các link để xem tài liệu cấu hình đầy đủ.
LiteLLM Router — thực tế nhất cho self-hosters
LiteLLM (docs.litellm.ai/docs/routing) là một Python proxy mã nguồn mở với hơn 100 model provider sau một API tương thích OpenAI thống nhất. Bạn định nghĩa routing strategy trong YAML:
model_list:
- model_name: my-classifier
litellm_params:
model: claude-haiku-4-5
- model_name: my-classifier
litellm_params:
model: claude-opus-4-7
router_settings:
routing_strategy: cost-based-routing
Router chọn model rẻ nhất trong nhóm và failover khi có lỗi. Bạn có giới hạn ngân sách theo API key, theo dõi chi tiêu, và retry logic. Tiết kiệm nằm ở chênh lệch giá bạn cấu hình — LiteLLM lo việc routing, bạn hưởng phần chênh lệch giữa các model đã chọn.
Dành cho: các engineer quản lý infrastructure của mình và cần kiểm soát routing chi tiết, hành vi fallback, và visibility về chi tiêu.
OpenRouter — lựa chọn không cần hạ tầng
OpenRouter (openrouter.ai) là managed gateway cho 400+ model từ 60+ provider, xử lý hơn 80T token mỗi tháng. Dùng slug model openrouter/auto để tự động chọn model được hỗ trợ bởi routing NotDiamond. Không cần duy trì hạ tầng — đổi base URL, giữ nguyên các SDK call OpenAI hiện tại.
Không tìm thấy affiliate program cho OpenRouter (kiểm tra tháng 5/2026).
Hạn chế: chỉ hosted, ít kiểm soát chi tiết hơn so với proxy tự host. Auto-router là black box — bạn không thể điều chỉnh ngưỡng hay kiểm tra quyết định routing.
Dành cho: startup và solo developer muốn routing mà không cần vận hành hạ tầng.
RouteLLM — cấp nghiên cứu, ngưỡng benchmark cao nhất
RouteLLM (github.com/lm-sys/RouteLLM) huấn luyện các classifier MF/BERT/Causal LLM trên dữ liệu preference của Chatbot Arena. Kết quả nổi bật: chỉ cần 14% cuộc gọi GPT-4 để đạt 95% chất lượng MT Bench — giảm >85% chi phí. Router chuyển zero-shot sang các cặp Claude Opus/Sonnet (APGR 0.762–0.772) mà không cần huấn luyện lại trên cặp model mới.
Thách thức là chi phí cài đặt. Để đạt được con số tốt nhất, bạn cần preference label. Nghiên cứu cho thấy LLM-judge augmentation — sinh ~120k label bằng judge model — đẩy hiệu suất MT Bench từ 26% cuộc gọi GPT-4 (chưa huấn luyện) xuống 14% (đã huấn luyện), với chi phí ~$700. Đây là đầu tư một lần; sau khi huấn luyện xong, chi phí inference là không đáng kể.
Dành cho: các team có phân phối query lớn và đa dạng, khi cải thiện 10–15% độ chính xác routing xứng đáng với một engineering sprint.
Một công cụ nên loại khỏi danh sách: Martian. Tính đến tháng 5/2026, withmartian.com không còn liệt kê sản phẩm routing, trang pricing, hay form đăng ký. Dịch vụ routing dường như đã ngừng hoạt động — đừng dựa vào Martian là một lựa chọn đang hoạt động mà không xác minh lại.
Kết luận: bốn ngưỡng quyết định
Route tất cả sang model rẻ theo mặc định nếu mix task của bạn có >50% là phân loại, trích xuất, hoặc RAG lookup. Bắt đầu từ đó, kiểm tra thất bại hàng tháng, escalate các pattern lên Opus — đừng bắt đầu với flagship.
Dùng hybrid với tín hiệu escalate rõ ràng nếu mix của bạn bao gồm nhiều sinh code, knowledge QA, hoặc summarization. Đặt các proxy độ phức tạp rõ ràng — số token, tag loại query, ngưỡng confidence — thay vì dựa vào trained router. Quy tắc tường minh có thể kiểm tra; black-box router thì không.
Đầu tư vào RouteLLM nếu bạn có phân phối query lớn và đa dạng, có thể sinh preference label, và khoảng cách từ 45% lên >85% tiết kiệm xứng đáng với một engineering sprint. Đây là lựa chọn có ngưỡng trần cao nhất nhưng có chi phí cài đặt thực sự.
Giữ mọi thứ trên Opus nếu pipeline của bạn là agentic chain nơi lỗi tích lũy (xem chi phí thực tế khi chạy AI agent), xử lý escalation trực tiếp với khách hàng đòi hỏi sự đồng cảm, hoặc thực hiện tổng hợp long-context trên nhiều tài liệu. Khoảng cách 14.3 điểm phần trăm trên SWE-bench là thực, và trong các multi-step chain, một bước trung gian sai không chỉ thất bại — nó làm hỏng các bước downstream phụ thuộc vào nó.
Heuristic một câu: route sang model rẻ theo mặc định; chỉ escalate lên flagship khi query đòi hỏi lập luận nhiều bước, tổng hợp mới, hoặc hiểu biết trên nhiều tài liệu.
Lưu ý
Giá cả tính đến tháng 5/2026 — kiểm tra platform.claude.com/docs và openrouter.ai trước khi dựa vào các con số này cho quyết định kiến trúc. Kết quả của RouteLLM được huấn luyện trên các cặp GPT-4/Mixtral; zero-shot transfer sang các cặp Claude có variance, và con số theo từng loại task của bạn sẽ khác với benchmark tổng hợp trong nghiên cứu. Dữ liệu latency từ Artificial Analysis (artificialanalysis.ai) và phản ánh các số liệu tốt nhất quan sát được từ nhiều provider — TTFT thực tế phụ thuộc vào tải và khu vực.
Không có công cụ nào được link trong bài này có quan hệ affiliate với toolchew.
Tài liệu tham khảo
- Anthropic pricing — platform.claude.com/docs/en/about-claude/models/overview — truy cập 2026-05-17
- OpenAI pricing — openrouter.ai và llmpricecheck.com — truy cập 2026-05-17
- RouteLLM — arXiv:2406.18665 (ICLR 2025, openreview.net/forum?id=8sSqNntaMr) — lmsys.org/blog/2024-07-01-routellm và github.com/lm-sys/RouteLLM
- Hybrid LLM paper — arXiv:2404.14618 (ICLR 2024)
- LiteLLM Router docs — docs.litellm.ai/docs/routing — truy cập 2026-05-17
- OpenRouter auto router (powered by NotDiamond) — openrouter.ai/docs/guides/routing/routers/auto-router — truy cập 2026-05-17
- Martian — withmartian.com — truy cập 2026-05-17 (không còn sản phẩm routing, trang pricing, hay đăng ký tính đến ngày này; dịch vụ routing dường như đã ngừng hoạt động)
- Artificial Analysis latency benchmarks — artificialanalysis.ai — truy cập 2026-05-17
- ACL 2024 routing lessons — aclanthology.org/2024.insights-1.15.pdf
- TACL summarization benchmark — doi:10.1162/tacl_a_00632
- SWE-bench Verified scores — swebench.com (truy cập 2026-05-17): Opus 4.7: 87.6%, Sonnet 4.6: 79.6%, Haiku 4.5: 73.3%