Claude Opus 4.7 cho coding — Khi nào model lớn thắng
Opus 4.7 dẫn đầu SWE-bench Verified ở 87.6% và đạt 70% CursorBench (58% Opus 4.6). Chi phí ~2× Sonnet 4.6 sau tokenizer uplift — khi nào nó đáng tiền.
Bởi Ethan · Cập nhật 16 tháng 5, 2026
1.751 từ · 9 phút đọc
Claude Opus 4.7 là model phù hợp nếu bạn đang chạy các phiên agentic coding dài, làm việc trong codebase vượt qua 200k token, hay thực hiện refactor multi-file trên production mà bỏ giữa chừng sẽ tốn rất nhiều thời gian. Với mọi tác vụ khác — review PR, hàm riêng lẻ, pipeline khối lượng lớn — Sonnet 4.6 nhanh hơn và rẻ hơn khoảng một nửa sau khi tính đến tokenizer.
Bài này dành cho ai
Developer đang chạy Sonnet 4.6 hoặc Haiku 4.5 và muốn câu trả lời cụ thể cho câu hỏi “liệu Opus có đáng nâng cấp với workload của mình?” Nếu bạn chưa chọn model đầu tiên, hãy bắt đầu với Sonnet 4.6 rồi quay lại đây khi bạn chạm giới hạn của nó.
Dữ liệu nói gì về Claude Opus 4.7
Benchmark nổi bật nhất là SWE-bench Verified: Opus 4.7 đạt 87.6%, tăng từ 80.8% của Opus 4.6 và cao hơn Gemini 3.1 Pro (80.6%). SWE-bench dùng GitHub issue thực với test suite do người xác minh — đây là proxy gần nhất có thể tái tạo công khai cho công việc sửa lỗi thực tế. Khoảng tăng 6.8 điểm là có ý nghĩa.
Anthropic cũng chạy CursorBench — workflow coding tích hợp IDE thực tế, không phải bài toán tổng hợp. Opus 4.7 đạt 70% so với 58% của Opus 4.6. Khoảng cách 12 điểm là chiều kích IDE của cùng một câu chuyện: khả năng duy trì mục tiêu tốt hơn dưới áp lực.
Dữ liệu sản xuất từ bên thứ ba: Rakuten báo cáo Opus 4.7 giải quyết gấp 3 lần số tác vụ production so với Opus 4.6 trong thử nghiệm nội bộ. Đây là dữ liệu độc lập mạnh nhất hiện có và nó phù hợp với xu hướng benchmark.
Một điểm thụt lùi cần thừa nhận: BrowseComp (nghiên cứu web) giảm từ 83.7% → 79.3% so với Opus 4.6. GPT-5.4 dẫn đầu ở đây với 89.3%. Nếu workflow của bạn phụ thuộc nhiều vào việc Claude tìm kiếm và tổng hợp nội dung web, Opus 4.7 là bước lùi so với tiền thân.
Phân tích theo loại tác vụ
Agentic coding tầm xa
CursorBench đạt 70% so với 58% của Opus 4.6 trên workflow IDE thực tế. Model duy trì mục tiêu xuyên suốt chuỗi tool call dài mà không bị lệch hướng. Khi Sonnet 4.6 chạy một tác vụ agentic 40 bước, nó dễ bỏ cuộc hoặc mất ngữ cảnh giữa chừng hơn. Opus 4.7 thì không — đây là nơi các cải tiến benchmark hiện ra rõ ràng nhất trong thực tế.
Ngữ cảnh lớn — codebase 200k+ token
HN user arcanemachiner (thread #47793411) chia sẻ: “I had a conversation go well into the 200K token range…the model seemed surprisingly capable” — đối lập với Opus 4.6, model mà theo anh ta “seems to veer into the dumb zone heavily around the 200k mark.” Đây là sự khác biệt cấu trúc, không phải sự khác biệt nhỏ. Opus 4.7 và Sonnet 4.6 đều hỗ trợ cửa sổ ngữ cảnh 1M token, nhưng khả năng hiểu ở cuối dải đó của Opus 4.7 là khác biệt đáng kể.
Refactor multi-file trên production
Con số gấp 3 lần của Rakuten áp dụng ở đây. Refactor multi-repo đòi hỏi giữ một model thay đổi nhất quán qua hàng chục file và hàng trăm call site — đây chính xác là nơi Opus 4.7 xứng đáng với mức giá cao hơn. Sonnet 4.6 đủ năng lực cho các thay đổi single-file hay phạm vi nhỏ; nó mất tính nhất quán khi quy mô tăng.
Agent coding tích hợp IDE
CursorBench: 70% so với 58%. Nếu bạn dùng Cursor hay Windsurf làm công cụ hàng ngày, khoảng cách chất lượng agent là có thực và nó hiện ra trong các tác vụ như “refactor module auth này để dùng session API mới” — nơi model cần theo dõi nhiều ranh giới file và hệ quả test đồng thời. Windsurf hỗ trợ Opus 4.7 Fast Mode (beta), cho output nhanh hơn ~2.5× với $30/$150 trên MTok — mức giá cao hơn 6× so với giá Opus thông thường, chỉ đáng với những use case nhạy cảm về độ trễ trong tương tác. Chưa chọn agent IDE? Xem Cursor vs Claude Code để so sánh trực tiếp hai công cụ phổ biến nhất.
Khi nào Sonnet 4.6 là đủ
- Review PR và hàm riêng lẻ: khoảng cách benchmark giữa Opus và Sonnet nhỏ với các tác vụ hoàn thành đơn lẻ. Khoảng cách chi phí (khoảng 1.9–2× sau tokenizer uplift, xem bên dưới) thì không nhỏ chút nào.
- Pipeline khối lượng lớn: batch pricing cho Opus 4.7 là $2.50/$12.50 trên MTok so với Sonnet 4.6 là $1.50/$7.50. Chạy 10M token mỗi ngày và sự chênh lệch là $10k/tháng trước khi tính tokenizer uplift.
- Nghiên cứu web và tìm kiếm agentic: Sonnet 4.6 vượt trội hơn Opus 4.7 trên BrowseComp, và GPT-5.4 dẫn đầu cả hai. Nếu nghiên cứu web là use case chính của bạn, Opus 4.7 là lựa chọn sai.
Điểm thụt lùi về nghiên cứu web
HN thread #47793411 phơi bày điều này rõ ràng: các developer dùng Opus 4.7 cho workflow agentic có tìm kiếm đang thất vọng. Hệ thống adaptive thinking — được thiết kế để quyết định khi nào áp dụng extended reasoning — có một failure mode đã được ghi chép: nó không suy nghĩ khi đáng lẽ phải suy nghĩ. User JamesSwift: “Its especially concerning / frustrating because boris’s reply to my bug report on opus being dummer was ‘we think adaptive thinking isnt working’ and then thats the last I heard of it.” User simonw: “I’m finding the ‘adaptive thinking’ thing very confusing, especially having written code against the previous thinking budget / thinking effort / etc modes.”
Đây không phải lỗi ngoại lệ. Nó ảnh hưởng đến các workflow nơi model cần xâu chuỗi tra cứu web, tổng hợp kết quả, và lý luận về mức độ liên quan. Nếu đó là use case của bạn, BrowseComp (79.3% cho Opus 4.7 so với 89.3% của GPT-5.4) là benchmark cần theo dõi.
Chi phí thực: tokenizer uplift
Giá niêm yết: Opus 4.7 là $5/$25 trên MTok (input/output); Sonnet 4.6 là $3/$15 trên MTok. Trên giấy tờ, đó là mức phụ trội 1.67×.
Trong thực tế, con số đó cao hơn. Opus 4.7 dùng tokenizer mới mã hóa cùng một đầu vào tiếng Anh thành nhiều hơn 1.35× token tùy loại nội dung. Trên workload developer thông thường — văn xuôi tiếng Anh, code, JSON — mức uplift là 1.12–1.18×. Với $5/MTok và tokenizer multiplier 1.18×, chi phí input thực tế mỗi byte văn bản là khoảng $5.90/MTok tương đương. So với $3/MTok của Sonnet 4.6, tỷ lệ chi phí thực tế gần hơn 1.97×, không phải 1.67×.
| Tình huống | Chi phí Sonnet 4.6 | Chi phí Opus 4.7 | Tỷ lệ |
|---|---|---|---|
| 1M tokens input, giá thông thường | $3.00 | $5.00 | 1.67× |
| 1M tokens input, với tokenizer uplift (1.18×) | $3.00 | $5.90 | 1.97× |
| 10M tokens/ngày, batch pricing | $15/ngày | $29.50/ngày | ~2× |
| Fast Mode, 1M output tokens | — | $150 | — |
Codebase không phải tiếng Anh (tiếng Nhật, tiếng Hàn) có thể thấy chi phí tokenizer giảm do encoding hiệu quả hơn — điều đó phần nào bù đắp mức uplift cho các team quốc tế.
Kết luận — ma trận lựa chọn
| Use case | Model | Lý do |
|---|---|---|
| Tác vụ agentic > 50 bước | Opus 4.7 | Dẫn đầu CursorBench 12 điểm (70% so với 58%) |
| Codebase > 200k tokens | Opus 4.7 | Khoảng cách hiểu ngữ cảnh cấu trúc ở cuối dải |
| Refactor multi-repo trên production | Opus 4.7 | Giải quyết gấp 3× tác vụ (Rakuten) |
| IDE agent (Windsurf Fast Mode) | Opus 4.7 | 70% CursorBench, output nhanh hơn 2.5× |
| Review PR, hàm riêng lẻ | Sonnet 4.6 | Rẻ hơn ~2×, khoảng cách chất lượng không đáng kể |
| Pipeline khối lượng lớn | Sonnet 4.6 | Khoảng cách chi phí batch tích lũy theo quy mô |
| Nghiên cứu web, tìm kiếm agentic | Sonnet 4.6 hoặc GPT-5.4 | Opus 4.7 thụt lùi trên BrowseComp |
| Điểm vào với ngân sách thấp | Haiku 4.5 | $1/$5 trên MTok, ngữ cảnh 200k |
Lưu ý
Bẫy chi phí tokenizer: khi migrate prompt từ Opus 4.6 sang 4.7, hãy tính đến 12–18% uplift. Một pipeline được tối ưu để giữ dưới giới hạn chi phí sẽ vượt ngưỡng nếu không điều chỉnh.
Adaptive thinking: failure mode được ghi chép trên HN (chọn không suy nghĩ khi đáng lẽ phải) là có thực và chưa được Anthropic tài liệu hóa đầy đủ. Hãy kiểm thử agentic chain cụ thể của bạn trước khi chuyển sang Opus 4.7 cho các workflow nặng về lý luận.
Affiliate API Anthropic: Anthropic không có chương trình affiliate. Liên kết Windsurf ở trên là liên kết affiliate; liên kết pricing Anthropic thì không.
Benchmark do Anthropic cung cấp trừ khi có ghi chú: CursorBench (70% so với 58%) và Rakuten (gấp 3× giải quyết tác vụ) lấy từ thông báo release của Anthropic. Số liệu SWE-bench Verified, SWE-bench Pro, và BrowseComp lấy từ phân tích benchmark bên thứ ba của Vellum AI (dẫn nguồn trong tham khảo).
Related reading
- Claude Haiku 4.5 cho coding — đánh giá benchmark và chi phí
- Cursor vs GitHub Copilot 2026: Công cụ nào nhanh hơn?
- Claude Code vs Codex 2026: So sánh hai AI agent trên terminal
Tham khảo
- Anthropic: Giới thiệu Claude Opus 4.7 — benchmark chính thức, danh sách tính năng, bối cảnh release
- Giá Anthropic API — giá token đã xác minh, giá batch, giá Fast Mode (truy cập 2026-05-16)
- Tổng quan model Anthropic — kích thước cửa sổ ngữ cảnh, số token output tối đa, API ID
- Vellum AI: Giải thích benchmark Claude Opus 4.7 — SWE-bench Verified 87.6%, SWE-bench Pro 64.3%
- HN #47793411: Giới thiệu Claude Opus 4.7 — dữ liệu từ developer, vấn đề adaptive thinking (tháng 4–5 năm 2026)
- BuildFastWithAI: Đánh giá đầy đủ Claude Opus 4.7 — đối chiếu bảng benchmark