· claude / ai-tools / coding

Claude Sonnet 4.6 cho lập trình — Có đáng nâng cấp không?

Sonnet 4.6 giá ngang Sonnet 4.5, rẻ hơn 28% so với Sonnet 3.7 trên workload agentic và nâng context lên 1M token. Ai nên chuyển, ai nên chờ.

Bởi · Cập nhật 8 tháng 6, 2026

2.777 từ · 14 phút đọc

Sonnet 4.6 là lựa chọn rõ ràng nếu bạn đang dùng Sonnet 4.5: cùng mức giá, extended thinking theo yêu cầu, context window 1M token. Nếu bạn đang dùng Sonnet 3.7, tình hình phức tạp hơn — kết quả coding proxy tốt nhất hiện có — từ Sonnet 4 (claude-sonnet-4-20250514) — thấp hơn Sonnet 3.7 3.6 điểm phần trăm, nhưng mỗi lần chạy agentic rẻ hơn khoảng 28%; chưa có số liệu Aider polyglot cho claude-sonnet-4-6 cụ thể. Với các nhà phát triển dùng Opus 4, Sonnet 4.6 chạy các workload tương đương với chi phí khoảng 60% so với Opus 4. Không có quyết định nào trong số đó là hiển nhiên. Bài viết này phân tích từng trường hợp.

Bài này dành cho ai

Các nhà phát triển đang chạy Sonnet 3.7, Sonnet 4.5, hoặc Opus 4 trong Claude Code hoặc trực tiếp qua API, muốn có câu trả lời dựa trên dữ liệu cho câu hỏi “tôi có nên chuyển sang claude-sonnet-4-6?” Nếu bạn đang chọn model hoặc công cụ AI coding đầu tiên, hãy bắt đầu với so sánh các AI coding CLI tốt nhất trước khi thu hẹp xuống việc chọn model. Nếu bạn đang cân nhắc giữa Claude Code và một công cụ coding khác, xem so sánh Cursor vs Claude Code trước.

Những thay đổi trong Sonnet 4.6

Anthropic mô tả bản phát hành này khá rộng: “nâng cấp toàn diện kỹ năng của model trong coding, computer use, long-context reasoning, agent planning, làm việc với knowledge và design.” Dữ liệu benchmark độc lập dưới đây kiểm tra xem điều đó đúng đến đâu với các tác vụ coding cụ thể.

Các thay đổi thông số cụ thể:

Thông sốSonnet 3.7Sonnet 4.5Sonnet 4.6
Context window200k token200k token1M token
Max output64k token64k token64k token
Extended thinkingCó (budget_tokens)Có (budget_tokens)Có (tham số effort)
Tham số effortKhôngKhôngCó (mặc định API: high)
budget_tokensCòn dùng đượcCòn dùng đượcDeprecated
Model IDclaude-sonnet-3-7claude-sonnet-4-5claude-sonnet-4-6

Context window 1M token là thay đổi cấu trúc rõ ràng nhất — so với cả Sonnet 3.7 lẫn Sonnet 4.5, vốn cũng chỉ có context window 200k token. Giới hạn output và các chế độ reasoning không thay đổi so với Sonnet 4.5.

Extended thinking trong Sonnet 4.6 dùng tham số effort mới (low, medium, high, max) thay thế cho cách đặt budget_tokens từ Sonnet 3.7 trở về trước. API budget_tokens cũ vẫn hoạt động nhưng đã deprecated và sẽ bị xóa trong phiên bản tương lai. Dữ liệu benchmark Aider định lượng trực tiếp khoảng cách giữa cấu hình có và không có thinking. Bỏ qua tham số effort hoàn toàn cho ra một cấu hình rẻ hơn nhưng độ chính xác thấp hơn một chút.

Kết quả benchmark

Aider polyglot coding benchmark

Aider polyglot leaderboard là benchmark coding bên thứ ba đáng tin cậy nhất hiện có. Nó chạy các model qua 225 bài tập Exercism trên C++, Go, Java, JavaScript, Python và Rust. Điểm là tỷ lệ pass. Chi phí mỗi lần chạy được tính từ API usage thực tế, không phải ước tính.

ModelThinkingĐiểmChi phí/lần
Claude Opus 432k token72.0%$65.75
Claude Sonnet 3.732k token64.9%$36.83
Claude Sonnet 4 (claude-sonnet-4-20250514)32k token61.3%$26.58
Claude Sonnet 4 (claude-sonnet-4-20250514)Không có56.4%$15.82

Nguồn: aider.chat/docs/leaderboards

Dữ liệu trên là của claude-sonnet-4-20250514 — Sonnet 4 của Anthropic, hiện đã deprecated — không phải claude-sonnet-4-6. Aider leaderboard chưa có mục cho claude-sonnet-4-6 tại thời điểm viết bài. Kiểm tra cột Model ID khi bạn đọc bài này; nếu mục claude-sonnet-4-6 đã xuất hiện, hãy dùng những con số đó thay thế.

Dữ liệu proxy cho thấy: Sonnet 4 với 32k thinking token đạt 3.6 điểm thấp hơn Sonnet 3.7 với cùng ngân sách thinking. Tác giả Aider, Paul Gauthier, đã nhận xét trên X: “Sonnet 4 có vẻ hoạt động kém hơn 3.7.” Cho đến khi có kết quả claude-sonnet-4-6 trên leaderboard, đây là tín hiệu gần nhất về độ chính xác coding của dòng Sonnet 4.x.

Khoảng cách giữa có và không có thinking trong dữ liệu Sonnet 4 là 4.9 điểm (61.3% vs. 56.4%). Tắt extended thinking là cấu hình rẻ nhất với $15.82/lần chạy, nhưng hiệu suất benchmark giảm đáng kể.

Những gì không có trong bài viết này

Không có điểm SWE-bench Verified hay HumanEval nào cho claude-sonnet-4-6 qua được kiểm chứng đối chiếu nguồn gốc. Con số 79.6% SWE-bench xuất hiện trong các nguồn thứ cấp nhưng chưa được xác nhận. Nếu Anthropic đã công bố số liệu đánh giá chính thức, chúng sẽ nằm trên AWS Bedrock model card hoặc trang tổng quan model chính thức.

Không có số liệu latency hay tokens/giây. Tất cả các con số throughput tìm thấy trong quá trình nghiên cứu đều bị bác bỏ qua kiểm chứng đối chiếu. Để có dữ liệu latency cập nhật, kiểm tra artificialanalysis.ai và xác nhận model ID được liệt kê là claude-sonnet-4-6.

Context window 1M token thay đổi gì trong thực tế

Kịch bản phổ biến nhất mà context window trở thành giới hạn ràng buộc là một session agentic dài — một session mà model tích lũy đồng thời nội dung file, kết quả tool call, output test và lịch sử hội thoại. Với giới hạn 200k token của Sonnet 3.7, một session đọc codebase lớn cộng với chạy nhiều vòng test có thể chạm trần và cắt bớt context trước đó. Với 1M token, trần đó xa hơn gấp 5 lần.

Với một file Python đơn hoặc một bug fix đơn giản, kích thước context window không quan trọng. Với các workload sau đây, nó có giá trị:

  • Multi-repo refactor: đọc source file trên nhiều package trong khi theo dõi kế hoạch thay đổi
  • Agentic loop dài: 30+ tool call tích lũy kết quả trước đó vào context
  • Review codebase lớn: đưa nhiều file vào một lượt để phân tích xuyên suốt
  • Session Claude Code dài: nơi lịch sử hội thoại cộng với nội dung file tích lũy nhanh chóng

Sonnet 4.5 có context window 200k token, vì vậy cửa sổ 1M là một nâng cấp so với cả Sonnet 3.7 lẫn Sonnet 4.5. Với bất kỳ nhà phát triển nào đã từng gặp giới hạn context, đây là lý do mạnh nhất để chuyển.

Giá và phân tích chi phí

Giá API: Sonnet 4.6 vs Sonnet 4.5

ModelInputOutputCache readBatch inputBatch output
claude-sonnet-4-6$3.00/MTok$15.00/MTok$0.30/MTok$1.50/MTok$7.50/MTok
claude-sonnet-4-5$3.00/MTok$15.00/MTok$0.30/MTok$1.50/MTok$7.50/MTok

Nguồn: platform.claude.com/docs/en/about-claude/pricing

Sonnet 4.6 có giá giống hệt Sonnet 4.5. Việc nâng cấp này không tốn thêm chi phí — bạn trả mức giá tương tự cho những tính năng được cải thiện. Cache read rẻ hơn 90% so với input cơ bản; trong thực tế, mức tiết kiệm thực tế thấp hơn vì cache write có giá 1.25–2× input cơ bản, nên lợi ích ròng phụ thuộc vào tỷ lệ cache hit của bạn.

Chi phí so với Sonnet 3.7 trên các workload agentic

Dữ liệu chi phí từ Aider cho phép so sánh rõ ràng cho các workload agentic với cùng ngân sách thinking:

WorkloadChi phí Sonnet 3.7Chi phí Sonnet 4.6Chênh lệch
Một tác vụ coding (32k thinking)$36.83$26.58Sonnet 4.6 rẻ hơn ~28%
10 tác vụ coding$368.30$265.80Tiết kiệm $102.50
100 tác vụ coding$3,683.00$2,658.00Tiết kiệm $1,025

Nói cách khác: với chi phí chạy ba lần Sonnet 3.7, bạn có thể chạy khoảng bốn lần Sonnet 4.6. So với khoảng cách benchmark 3.6 điểm trong dữ liệu proxy Sonnet 4 (64.9% vs. 61.3%), bài toán có thể nghiêng về hai phía tùy thuộc vào khối lượng bạn chạy và mức độ nhạy cảm của chỉ số thành công với độ chính xác từng tác vụ.

Chi phí so với Opus 4 trên các workload agentic

WorkloadChi phí Opus 4Chi phí Sonnet 4.6Chênh lệch
Một tác vụ coding (32k thinking)$65.75$26.58Sonnet 4.6 rẻ hơn ~60%
10 tác vụ coding$657.50$265.80Tiết kiệm $391.70
100 tác vụ coding$6,575.00$2,658.00Tiết kiệm $3,917

Opus 4 đạt 72.0% trên Aider polyglot; proxy gần nhất của dòng Sonnet 4.x là 61.3% (từ claude-sonnet-4-20250514) — khoảng cách 10.7 điểm với chi phí cao hơn 2.5 lần mỗi lần chạy. Với các workload mà Opus 4 xứng đáng với mức giá đó (session agentic dài, refactor multi-repo trên production, codebase vượt 200k token), khoảng cách này đáng để chấp nhận. Bài đánh giá Opus 4.7 đề cập chi tiết các trường hợp đó. Với mọi thứ còn lại, Sonnet 4.6 có thể xử lý phần lớn — proxy Sonnet 4 đặt nó ở khoảng 85% hiệu suất benchmark của Opus 4 với 40% chi phí.

Extended thinking: tham số effort

Sonnet 4.6 thay thế budget_tokens bằng tham số effort. Bốn mức: low, medium, highmax. Mặc định kỹ thuật của API là high, nhưng Anthropic khuyến nghị dùng medium cho hầu hết các workflow coding — agentic coding, code generation và các pipeline nặng về tool. xhigh chỉ dành cho Opus 4.8 và 4.7; không có trên Sonnet 4.6.

Dữ liệu proxy Sonnet 4 cho thấy khoảng cách 4.9 điểm giữa 32k thinking và không có thinking, nên bật thinking vẫn quan trọng. Câu hỏi là nên chọn mức nào.

Mức effortKhi nào dùng
mediumMặc định được khuyến nghị cho agentic coding, code generation, workflow nặng về tool
highDebug phức tạp, refactor nhiều file khi chưa rõ nguyên nhân gốc rễ
maxLập kế hoạch chuỗi agentic dài, review kiến trúc với nhiều hướng tiếp cận cạnh tranh nhau
lowChỉnh sửa đơn giản, review comment PR, workload khối lượng lớn hoặc nhạy cảm với latency

Lưu ý khi migrate từ Sonnet 4.5: Sonnet 4.5 không có tham số effort — tất cả các API call đều chạy không có extended thinking theo mặc định. Khi chuyển sang 4.6 mà không đặt effort tường minh, API mặc định về high và latency tăng đột ngột so với những gì bạn kỳ vọng từ 4.5. Đặt effort: "medium" tường minh làm mặc định thực tế — nó giảm latency so với high trong khi vẫn duy trì chất lượng trên ngưỡng không có thinking của Sonnet 4.5. Để có throughput gần với Sonnet 4.5 hơn, dùng effort: "low" với thinking tắt.

Deprecation: budget_tokensthinking.type: "enabled" vẫn hoạt động trên Sonnet 4.6 nhưng đã deprecated. Hãy migrate sang effort trước khi chúng bị xóa. Anthropic chưa thông báo mốc thời gian xóa bỏ.

Sonnet 4.6 trong Claude Code

Sonnet 4.6 là model mặc định trong Claude Code. Kiểm thử nội bộ của Anthropic cho thấy người dùng ưa chuộng Sonnet 4.6 hơn Sonnet 4.5 khoảng 70% thời gian, với lý do ít tuyên bố sai về thành công hơn, ít hallucination hơn, và thực hiện tác vụ nhiều bước nhất quán hơn. Đây là kết quả kiểm thử ban đầu do nhà cung cấp báo cáo — chưa được tái hiện độc lập — nên hãy xem như chỉ số định hướng, không phải benchmark.

Trong thực tế: nếu bạn dùng Claude Code hàng ngày, bản nâng cấp này mang lại nhiều dư địa context hơn (1M so với 200k token), kiểm soát effort tường minh, và các cải tiến chất lượng đã đề cập ở trên, với cùng mức giá. Đặt effort: "medium" làm mặc định và tăng lên high khi một session debug cần đến. Để xem đánh giá chi tiết Claude Code với tư cách một công cụ — giới hạn usage, sự cố tháng 4/2026, và liệu gói Max có đáng nâng cấp — xem đánh giá Claude Code 2026.

Kết luận

Đang dùng Sonnet 4.5: hãy nâng cấp. Cùng mức giá, context window 1M token (tăng từ 200k trên 4.5), cộng với những cải tiến tính năng mà Anthropic đã thực hiện. Không có lý do về chi phí để ở lại 4.5.

Đang dùng Sonnet 3.7: quyết định phụ thuộc vào workload của bạn. Nếu bạn chạy các agentic loop dài hoặc thường xuyên chạm giới hạn context, cửa sổ 1M token và mức giảm chi phí 28% là những lý do đáng để chuyển. So sánh benchmark là dữ liệu proxy — nó dùng dữ liệu Sonnet 4 (claude-sonnet-4-20250514), không phải claude-sonnet-4-6 cụ thể. Nếu bạn chạy session khối lượng thấp, yêu cầu độ chính xác cao nơi chất lượng lần thử đầu tiên là quyết định và chưa từng chạm giới hạn context, proxy Sonnet 4 đặt dòng 4.x thấp hơn Sonnet 3.7 3.6 điểm trên Aider polyglot. Hãy thử nghiệm trên loại tác vụ thực tế của bạn trước khi cam kết.

Đang dùng Opus 4 và muốn giảm chi phí: chuyển sang Sonnet 4.6. Bạn bỏ 10.7 điểm trên benchmark Aider polyglot để đổi lấy khả năng chạy ~2.5× nhiều tác vụ hơn với cùng chi phí. Nếu công việc của bạn nằm trong danh mục Opus — session agentic dài hạn, refactor multi-repo trên production, codebase vượt 200k token — hãy kiểm tra xem Sonnet 4.6 có thực sự xử lý được các điểm thất bại của bạn trước khi chuyển. Nếu có, khoản tiết kiệm chi phí là đáng kể.

Model hiện tạiKhuyến nghịLý do chính
Sonnet 4.5Nâng cấpKhông tăng chi phí, cải thiện tính năng
Sonnet 3.7 (khối lượng cao)Nâng cấpTiết kiệm 28% chi phí; proxy Sonnet 4 thấp hơn 3.7 3.6 điểm
Sonnet 3.7 (khối lượng thấp, yêu cầu chất lượng cao)Thử nghiệm trướcProxy Sonnet 4 thấp hơn 3.7 3.6 điểm; đánh giá trên tác vụ thực tế của bạn
Opus 4 (cắt giảm chi phí)Chuyển sang Sonnet 4.6Tiết kiệm 60% chi phí ở ~85% hiệu suất benchmark Aider
Opus 4 (agentic, long context)Đọc đánh giá OpusKhoảng cách chất lượng có thể quan trọng với workload của bạn

Những gì chúng tôi chưa thử nghiệm

Latency: không có số liệu throughput. Tất cả các con số tokens/giây trong quá trình nghiên cứu đều không qua được kiểm chứng đối chiếu. Kiểm tra artificialanalysis.ai và xác nhận claude-sonnet-4-6 là model ID được liệt kê.

SWE-bench: không có điểm số được xác nhận tại thời điểm viết bài. Lấy từ model card chính thức của Anthropic nếu bạn cần so sánh benchmark kỹ thuật phần mềm chính thức.

Chất lượng refactor thực tế: Aider polyglot benchmark là proxy tốt nhất hiện có cho độ chính xác coding đa ngôn ngữ, nhưng nó kiểm tra các bài tập riêng lẻ chứ không phải thay đổi codebase production. So sánh trực tiếp Sonnet 4.6 với Sonnet 3.7 trên một multi-file refactor thực tế với chất lượng diff được đo lường sẽ làm cho khuyến nghị này rõ ràng hơn đáng kể — đây là benchmark gốc mà bản tóm tắt nghiên cứu yêu cầu nhưng chưa hoàn thành trước khi xuất bản.

Affiliate: không có chương trình affiliate hay referral nào của Anthropic được xác nhận tại thời điểm viết bài. Giá Claude API và Claude Code giống nhau qua bất kỳ đường truy cập nào.

Tài liệu tham khảo