Claude Haiku 4.5 cho coding — đánh giá benchmark và chi phí
Haiku 4.5 đạt 73.3% SWE-bench Verified, $1/1M token, 93 t/s. Phân tích thực tế: tác vụ nào dùng Haiku và tác vụ nào cần Sonnet 4.6 để ra kết quả.
Bởi toolchew · Cập nhật 16 tháng 5, 2026
1.575 từ · 8 phút đọc
Haiku 4.5 đạt 73.3% trên SWE-bench Verified — thấp hơn Sonnet 4.6 (79.2%) đúng 5.9 điểm — và giá thấp hơn ba lần trên mỗi token. Khoảng cách đó biến mất với các tác vụ single-file, boilerplate, sinh test, và review PR. Nhưng nó mở rộng ra khi phải lý luận cross-file, đưa ra quyết định kiến trúc, hay debug phức tạp. Hãy xem Haiku là tầng thực thi trong stack của bạn, không phải orchestrator.
Bài này dành cho ai
Developer đang xây dựng AI coding tool cần kiểm soát chi phí inference ở quy mô lớn, hoặc cá nhân dùng Claude Code muốn biết khi nào routing tự động sang Haiku là đúng — và khi nào nên chuyển hướng. Nếu mọi tác vụ bạn chạy đều vượt qua nhiều file hoặc đòi hỏi lý luận cross-context liên tục, hãy bắt đầu với Sonnet 4.6.
Chúng tôi xem xét gì
Benchmark lấy từ thông báo chính thức của Anthropic về Haiku 4.5, nghiên cứu độc lập của Qodo trên 400 pull request thực tế, và dữ liệu cộng đồng từ thảo luận Hacker News #45603947. Giá và thông số từ tài liệu của Anthropic tính đến 2026-05-16.
Điểm mạnh
Chỉnh sửa single-file và boilerplate
Phần lớn yêu cầu coding hàng ngày đều có phạm vi rõ ràng: thêm một hàm, viết test, đổi tên biến, dịch một bash command. Với những tác vụ này, Haiku 4.5 cho kết quả gần ngang Sonnet. Qodo đã chạy 400 pull request thực qua Haiku 4.5 và Sonnet 4 đối đầu trực tiếp, và Haiku 4.5 thắng trong 55.19% trường hợp. Ở thinking mode (ngân sách 4,096 token), con số này tăng lên 58% so với Sonnet 4.5 Thinking với điểm chất lượng trung bình 7.29/10.
Qodo thấy điều này đủ thuyết phục để đưa Haiku 4.5 thành một trong ba reviewer mặc định trong hệ thống của họ — bên cạnh GPT-5.2 cho phân tích chuyên sâu và Gemini 2.5 Pro là reviewer chính cho công việc hàng ngày. Haiku xử lý các repository khối lượng lớn và các team cần gợi ý chính xác, tối giản. Kiến trúc model theo lớp, nơi mỗi model phải tự chứng minh vị trí của mình, là một đánh giá có trọng lượng.
Bash scripting, Go, và PHP
Benchmark từ cộng đồng chỉ ra bash scripting, Go, và PHP single-file là điểm mạnh ổn định của Haiku. Đây là những domain mà tác vụ đến với yêu cầu rõ ràng và phạm vi cụ thể — viết script làm X, thêm PHP endpoint cho Y, thêm Go handler. Haiku xử lý chúng đáng tin cậy.
Completions thời gian thực và agentic pipeline
Với ~93 tokens/giây đầu ra và time-to-first-token 0.77s, Haiku 4.5 chạy nhanh hơn ~2× so với Sonnet 4.6 (~47 t/s, TTFT 1.37s). Với autocomplete tương tác hay bất kỳ vòng lặp nào mà độ trễ cảm nhận được, khoảng chênh đó rõ ràng. Claude Code tự động định tuyến tác vụ sang Haiku khi tốc độ và hiệu quả chi phí quan trọng hơn khả năng thuần túy.
Tuyên bố của Anthropic là “hiệu năng coding tương đương Sonnet 4 ở một phần ba chi phí và hơn gấp đôi tốc độ.” Dữ liệu từ Qodo xác nhận phần hiệu năng coding với tác vụ có phạm vi rõ ràng; còn chi phí và tốc độ là phép tính đơn giản từ thông số kỹ thuật.
Ở quy mô lớn, việc định tuyến dù chỉ một phần nhỏ request sang Haiku tích lũy rất nhanh.
Những hạn chế cần biết
Lý luận cross-file
Khi bạn yêu cầu Haiku theo dấu bug qua sáu file, hiểu cách một middleware chain biến đổi request trước khi đến handler, hay lý luận về side effect của module chưa quen — đây là nơi khoảng cách 5.9 điểm trên SWE-bench bắt đầu hiện ra. Yêu cầu lý luận cross-file càng phức tạp, khoảng cách càng lớn.
Context window khuếch đại vấn đề này: 200k token của Haiku so với 1M của Sonnet 4.6 có nghĩa là các agent phân tích toàn bộ repository trên codebase lớn có thể chạm giới hạn mà Sonnet không có.
Anti-pattern: sinh code nhiều hơn cần thiết
Đây là điểm bẫy cụ thể nhất. Với các prompt mờ — “refactor module này” hay “cải thiện code này” — báo cáo cộng đồng cho thấy Haiku 4.5 sinh ra nhiều code hơn đáng kể so với Sonnet cho cùng tác vụ (HN #45603947). Vấn đề không phải là hallucination. Haiku sinh dư để bù đắp cho độ tự tin thấp hơn. Nhiều code hơn đồng nghĩa với nhiều bề mặt cho bug và nhiều nhiễu trong code review.
Cách khắc phục là prompt chặt chẽ với ràng buộc phạm vi rõ ràng: “thêm một hàm làm X, chỉ sửa file này, không thay đổi gì khác.” Cách đó có tác dụng — nhưng nó đòi hỏi thay đổi kỷ luật viết prompt để dùng Haiku hiệu quả. Nếu team bạn hay viết prompt mở, Sonnet an toàn hơn.
React, kiến trúc, và code chuyên ngành
Cây component React với cross-component state, câu hỏi về đánh đổi kiến trúc, phiên debug nhiều bước kéo dài, và các domain chuyên biệt với ngữ cảnh ngữ nghĩa nặng (VFX pipeline code là ví dụ cộng đồng hay nhắc) đều được ghi nhận là điểm yếu ổn định của Haiku. Những tác vụ này thuộc về Sonnet.
Tốc độ và chi phí
| Claude Haiku 4.5 | Claude Sonnet 4.6 | |
|---|---|---|
| Giá input | $1.00 / 1M tokens | $3.00 / 1M tokens |
| Giá output | $5.00 / 1M tokens | $15.00 / 1M tokens |
| Context window | 200k tokens | 1M tokens |
| SWE-bench Verified | 73.3% | 79.2% |
| Tốc độ output | ~93 tokens/giây | ~47 tokens/giây |
| TTFT | ~0.77s | ~1.37s |
| Phù hợp nhất | Thực thi, single-file, khối lượng lớn | Orchestration, multi-file, phức tạp |
Batch API giảm cả hai model 50%: input Haiku xuống $0.50/1M, Sonnet xuống $1.50/1M. Prompt cache đọc ở mức 0.1× giá input — giảm 90% cho bất kỳ context nào agent đọc nhiều lần. Một coding agent có system prompt lớn, ổn định và code context dùng chung sẽ hưởng lợi nhiều từ cache trên cả hai model.
Ví dụ cụ thể: 10,000 request mỗi ngày, mỗi request 800 input token và 200 output token. Dùng toàn Haiku hết $9/ngày. Dùng toàn Sonnet hết $26/ngày. Định tuyến nửa số request sang Haiku ra khoảng $18/ngày. Ở 1M request/ngày, các tỷ lệ đó trở thành quyết định cơ sở hạ tầng có trọng lượng — xem chi phí thực sự khi vận hành đội AI agent để có bức tranh đầy đủ.
Bảng giá đầy đủ: Anthropic pricing
Context window: 200k token có quan trọng không?
Với hầu hết tác vụ single-file và review PR, không. 200k token xử lý được mọi đoạn codebase thực tế bạn gửi trong một request — một file, một diff, vài module liên quan. Nơi giới hạn này có ý nghĩa là các agent trên codebase lớn cần load nhiều file lớn trong một context window, hoặc các phiên agentic nhiều lượt dài tích lũy lịch sử. Nếu agent của bạn thường xuyên chạm 150k+ token trong một lần gọi, 1M window của Sonnet là lý do để trả thêm tiền.
Kết luận về Claude Haiku 4.5
Dùng Haiku 4.5 cho công việc ở tầng thực thi: chỉnh sửa single-file, sinh test, review PR, bash scripting, boilerplate, completions thời gian thực, và mọi pipeline khối lượng lớn nơi chi phí và độ trễ quan trọng hơn chất lượng. Với 73.3% trên SWE-bench Verified, 93 t/s, và $1/1M input token, đây là model phù hợp cho tầng đó.
Dùng Sonnet 4.6 khi tác vụ vượt qua ranh giới file, đòi hỏi phán đoán kiến trúc, debug phức tạp, hay xử lý các domain mang ngữ cảnh ngữ nghĩa nặng. Khoảng cách 5.9 điểm trên benchmark là có thực và tăng theo độ phức tạp của tác vụ.
Nếu bạn đang xây dựng coding tool: định tuyến tác vụ có phạm vi, yêu cầu rõ ràng sang Haiku và orchestrate trên Sonnet. Claude Code đã làm điều này. Nếu bạn đang chọn giữa các công cụ AI coding, xếp hạng sáu AI coding CLI tốt nhất năm 2026 là điểm so sánh tốt. Nếu bạn là developer cá nhân: viết prompt chặt chẽ, có phạm vi khi dùng Haiku và chuyển sang Sonnet khi cần model tự mình lý luận qua những gì chưa được chỉ định sẵn.
Related reading
- Claude Opus 4.7 cho coding — Khi nào model lớn thắng
- Đánh giá Claude Code năm 2026 — sáu tháng thực chiến
- Cursor năm 2026 — Điểm mạnh và những gì vẫn còn thiếu
Tham khảo
- Claude Haiku 4.5 release — Anthropic
- Claude Sonnet 4.6 release — Anthropic
- Model specs and context windows — Anthropic docs
- Pricing — Anthropic
- Thinking vs thinking: Haiku 4.5 and Sonnet 4.5 on 400 real PRs — Qodo
- Why Qodo chose Haiku 4.5 as its default reviewer — Qodo
- Haiku 4.5 latency benchmarks — Artificial Analysis
- Sonnet 4.6 latency benchmarks — Artificial Analysis