AI coding CLI tốt nhất năm 2026: xếp hạng sáu công cụ

Claude Code là AI coding CLI tốt nhất năm 2026 cho developer muốn agentic loop đáng tin cậy nhất trên các task phức tạp, nhiều file. Nó đạt 87.6% trên SWE-bench Verified — cao nhất trong số các CLI-native agent trong bài so sánh này — và không công cụ nào trong danh sách này theo kịp về khả năng hoàn thành task autonomous trong thời gian dài. Nếu bạn muốn bắt đầu mà không tốn tiền, hãy cài Gemini CLI trước: 1.000 request mỗi ngày trên Gemini 2.5 Pro là free tier thực sự, không phải bản dùng thử giới hạn.

Bài này dành cho ai

Developer ưu tiên terminal đang chọn AI coding tool chính vào giữa năm 2026, hoặc đang cân nhắc có nên chuyển từ công cụ đang dùng hay không. Nếu bạn muốn một IDE với inline autocomplete và sidebar gợi ý, bài so sánh này không giúp được nhiều — xem Cursor vs Claude Code để biết thêm. Các công cụ này sống trong shell, không phải trong editor.

Tổng quan các AI coding CLI

Công cụ	Free tier	Gói trả phí thấp nhất	Cài đặt	Phù hợp nhất
Claude Code	Không có	$20/tháng	`npm install -g @anthropic-ai/claude-code`	Agentic work phức tạp
Gemini CLI	1.000 req/ngày	Pay-per-token	`npm install -g @google/gemini-cli`	Bắt đầu miễn phí
Aider	Có (BYOK)	~$5–15/ngày API	`pip install aider-install`	Git discipline + local models
GitHub Copilot CLI	Không có	$10/tháng	`gh extension install github/gh-copilot`	Team dùng GitHub là trung tâm
OpenAI Codex CLI	Không có	$20/tháng (Plus)	`npm install -g @openai/codex`	Người dùng ChatGPT Plus
Amp	Miễn phí (beta)	Chưa công bố	Xem ampcode.com	Muốn khám phá thêm

Claude Code

Cài đặt: npm install -g @anthropic-ai/claude-code Giá: Không có free tier. Gói Pro $20/tháng (Sonnet 4.6). Gói Max $100/tháng (Opus 4.7 với 1M context).

Claude Code dẫn đầu benchmark trong danh sách này. Trên SWE-bench Verified — 500 GitHub issue thực tế từ các Python project phổ biến, được chấm dựa trên việc patch của agent có pass test suite hay không — Opus 4.7 đạt 87.6%. Con số này đến từ leaderboard chính tại swebench.com, không phải từ trang marketing.

Agentic loop là thứ phân biệt Claude Code với hầu hết các lựa chọn còn lại. Bạn mô tả task, nó lập kế hoạch, sửa file, chạy test, đọc output lỗi, và lặp lại — mà không cần bạn can thiệp ở từng bước. Với refactor nhiều file và debug session trải dài nhiều service, nó hoàn thành những task mà các công cụ khác trong danh sách này thường bị kẹt hoặc cần bạn liên tục thúc đẩy.

Hệ sinh thái MCP là điểm khác biệt thứ hai. Claude Code hỗ trợ tích hợp Model Context Protocol — introspect database, gọi external API, tự động hóa trình duyệt, custom internal tool — mà không cần cấu hình thêm. Nếu codebase của bạn cần gọi third-party API hoặc query database trực tiếp trong vòng lặp phát triển, MCP tool mở rộng phạm vi của agent mà không cần rời terminal session.

Nhược điểm cũng rõ ràng. Không có free tier, và gói Pro $20/tháng chỉ cho phép dùng Sonnet 4.6, không phải Opus 4.7. Không có inline autocomplete — Claude Code không phải bổ sung cho editor, nó là công cụ thực thi task. Nếu team bạn chỉ dùng OpenAI, không có đường sang đây; Claude Code chỉ chạy trên Anthropic models.

Điểm mạnh nhất: chất lượng agentic loop trên task phức tạp nhiều file; hệ sinh thái MCP Điểm yếu: không có free tier; không có IDE autocomplete; không dành cho người dùng OpenAI-only

Gemini CLI

Cài đặt: npm install -g @google/gemini-cli Giá: Free tier — 1.000 request mỗi ngày trên Gemini 2.5 Pro. Pay-per-token sau khi vượt mức đó qua Google AI Studio hoặc Vertex AI.

Gemini CLI là điểm khởi đầu dễ tiếp cận nhất trong bài so sánh này, và mức free tier hàng ngày hào phóng hơn vẻ ngoài. 1.000 request mỗi ngày trên Gemini 2.5 Pro — với 1M context — đủ cho một ngày làm việc thực sự mà không lo chạm trần với hầu hết workflow. Bạn không cần thẻ tín dụng để bắt đầu.

Hai yếu tố đẩy Gemini CLI lên trước các lựa chọn miễn phí khác. Thứ nhất, cửa sổ context 1M có ngay ở free tier, không bị khóa sau gói trả phí. Thứ hai, Google Search grounding tích hợp sẵn nghĩa là bạn có thể hỏi về API library gần đây, security advisory, hay changelog và nhận câu trả lời không bị đóng băng tại thời điểm training. Với công việc phát triển nặng về research, liên tục phải kiểm tra tài liệu, điều này có giá trị thực sự.

Điểm yếu đã được ghi nhận là độ ổn định của loop. Phản hồi từ cộng đồng đến giữa năm 2026 mô tả Gemini CLI lặp lại cùng một đề xuất thay đổi code qua nhiều lượt trong một session phức tạp — dấu hiệu cho thấy bộ nhớ của loop về những gì nó đã thử đang suy giảm. Với greenfield work, task một file, và phát triển nặng về research, bạn sẽ không gặp vấn đề này. Với debug nhiều service mà bạn cần agent chạy liên tục qua nhiều bước, bạn có thể gặp.

Điểm mạnh nhất: miễn phí 1.000 req/ngày trên model 1M context với Google Search grounding Điểm yếu: độ ổn định loop trên agentic task phức tạp thua Claude Code

Aider

Cài đặt: pip install aider-install Giá: Miễn phí để cài. BYOK (tự mang API key của mình). Chi phí API theo báo cáo cộng đồng từ $5–$15/ngày với frontier model ở mức vừa phải, đến $200–$500/tháng với power user chạy GPT-5 hết công suất.

Aider là công cụ terminal coding lâu đời nhất và có quan điểm rõ ràng nhất trong danh sách này, với 44.600 GitHub stars tính đến tháng 5 năm 2026 và cộng đồng hoạt động từ năm 2023. Triết lý rất tường minh: Aider là công cụ pair-programming cho developer quan tâm đến git history và muốn kiểm soát model chạy code.

Điểm nổi bật là git-native auto-commits và sự linh hoạt về model. Mỗi gợi ý bạn chấp nhận trở thành một commit với message có nghĩa — không cần bước git add && git commit riêng, và không có thay đổi nào bị để unstaged. Về model, Aider hỗ trợ 100+ model bao gồm local Ollama models. Bạn có thể chạy nó trên DeepSeek-Coder hay Qwen2.5-Coder kéo về qua Ollama với chi phí API $0. Với developer ở công ty có code không được ra ngoài, hoặc muốn một coding assistant hoàn toàn air-gapped, đây là lựa chọn duy nhất trong bài so sánh này đáp ứng được.

Aider Polyglot leaderboard đo framework của Aider trên các model: GPT-5 trong High mode đạt 88.0%, Gemini 2.5 Pro đạt 83.1%, DeepSeek-V3.2-Exp đạt 74.2%. Các điểm số này phản ánh chất lượng model — Aider là harness. Nhiều reviewer năm 2026 vẫn mô tả Aider là “tiêu chuẩn vàng cho terminal pair-programming,” điều này hợp lý nếu bạn đặt git hygiene và sự linh hoạt về model lên trước khả năng thực thi autonomous hoàn toàn.

Chi phí API cần nhấn mạnh thêm. BYOK nghĩa là chi phí do bạn chịu, không phải gói cố định. Chạy GPT-5 hết công suất cả ngày qua pattern request của Aider sẽ tốn $50–$100 phí API. Mức đó hợp lý cho công việc chuyên sâu thỉnh thoảng; nó trở thành chi phí biến đổi khó đoán khi dùng hàng ngày. Hầu hết developer có ngân sách chạy Aider trên model tầm trung (DeepSeek, Gemini) và chỉ dùng GPT-5 cho session thực sự cần đến.

Điểm mạnh nhất: 100+ model bao gồm local Ollama; git auto-commits; cộng đồng 44.600 stars Điểm yếu: chi phí API khó kiểm soát ở frontier model; không có gói giá cố định hàng tháng

GitHub Copilot CLI

Cài đặt: gh extension install github/gh-copilot Giá: $10/tháng (Individual Pro). Đã bao gồm trong GitHub Copilot Business và Enterprise.

GitHub Copilot CLI tích hợp trực tiếp vào gh CLI và được thiết kế dành riêng cho team tổ chức workflow xung quanh GitHub. Nó có thể giải thích bất kỳ lệnh gh nào, gợi ý shell command cho task liên quan đến GitHub, và trả lời câu hỏi về pull request đang mở, Actions job đang lỗi, hay commit gần đây — tất cả mà không cần rời terminal. Hỏi “giải thích tại sao Actions job này bị lỗi” hay “có gì thay đổi trong ba commit cuối của PR này” đều nhận được câu trả lời hữu ích trong vài giây.

Là coding agent, Copilot CLI không phải công cụ mạnh nhất trong bài so sánh này. Agentic loop của nó nông hơn Claude Code hay Aider, và không có sự linh hoạt về model hay benchmark score của cả hai. Với task coding thuần — debug, refactor, viết tính năng mới từ spec — bạn sẽ cảm nhận được sự chênh lệch. Chỗ nó xứng đáng là tầng GitHub-native: không công cụ nào trong danh sách này xử lý công việc liên quan đến gh mượt mà như vậy, và với team mà GitHub là trung tâm, $10/tháng có ý nghĩa khi dùng kết hợp với một coding agent mạnh hơn.

Để so sánh chi tiết GitHub Copilot với Cursor, xem Cursor vs GitHub Copilot của chúng tôi.

Điểm mạnh nhất: tích hợp GitHub PR/issue/Actions native; gh-adjacent CLI tốt nhất trong danh sách Điểm yếu: coding agent yếu hơn Claude Code hay Aider khi xét thuần về hoàn thành task

OpenAI Codex CLI

Cài đặt: npm install -g @openai/codex Giá: Đã bao gồm trong ChatGPT Plus ($20/tháng) và các gói Pro. Không tốn thêm chi phí cho người đang subscribe.

Codex CLI là terminal coding agent của OpenAI, được viết bằng Rust để tối ưu tốc độ và chạy trên GPT-5. Nó ra mắt đầu năm 2026 như đáp trả trực tiếp với Claude Code và là lựa chọn CLI native OpenAI được hoàn thiện nhất. GPT-5.3-Codex đạt 85% trên SWE-bench Verified — chỉ cách Claude Opus 4.7 ba điểm phần trăm — và Rust-based runtime khiến thời gian khởi động và thao tác file nhanh hơn rõ rệt so với các lựa chọn dùng Node.

Tính năng khác biệt là hỗ trợ đính kèm ảnh. Bạn có thể đưa screenshot dialog lỗi, sơ đồ từ tài liệu thiết kế, hay ảnh chụp ghi chú viết tay trực tiếp vào prompt. Với workflow debug theo kiểu “sửa những gì bạn thấy trong screenshot này,” không công cụ nào trong bài so sánh này hỗ trợ điều này một cách native.

Giới hạn là hệ sinh thái OpenAI. Codex CLI chỉ chạy trên OpenAI models — không có Anthropic, Google, hay local model. Nếu bạn đã là người dùng ChatGPT Plus, đây là cách hiệu quả nhất về chi phí để có terminal agent có năng lực mà không tốn thêm tiền hàng tháng. Nếu bạn dùng nhiều nhà cung cấp model, Aider hay Claude Code sẽ linh hoạt hơn.

Điểm mạnh nhất: đã bao gồm trong ChatGPT Plus không tốn thêm; hỗ trợ đính kèm ảnh; Rust runtime nhanh Điểm yếu: chỉ OpenAI, không linh hoạt về model; không dùng được nếu không có subscription OpenAI

Amp

Cài đặt: Xem ampcode.com Giá: Hiện tại miễn phí (beta). Chưa công bố pricing.

Amp là sản phẩm thay thế Cody của Sourcegraph ở cấp độ individual, ra mắt đầu năm 2026. Khác với Cody vốn được điều chỉnh để dùng CLI, Amp được xây dựng ngay từ đầu như terminal-first agent — mô tả “neo CLI rebuild” từ bài ra mắt của Sourcegraph chính xác ở chỗ nó không mang theo gánh nặng IDE-adapter của các công cụ cũ hơn. Ba chế độ bao phủ phạm vi sử dụng: smart (Opus 4.7, toàn năng cho công việc chung), rush (nhanh hơn và rẻ hơn cho task đã xác định rõ), và deep (GPT-5.5 với extended thinking cho vấn đề phức tạp).

Đưa ra nhận xét chắc chắn vẫn còn quá sớm. Amp miễn phí hôm nay vì đang trong beta, và Sourcegraph chưa cam kết về pricing. Không có benchmark data được công bố, chưa có track record sử dụng production đáng kể, và bề mặt tính năng vẫn đang thay đổi. Kiến trúc trông ổn và lựa chọn model mạnh. Đáng cài để đánh giá, nhưng chưa nên đặt làm công cụ chính trước khi pricing ổn định.

Điểm mạnh nhất: miễn phí hiện tại; chế độ smart/rush/deep; lựa chọn model mạnh bao gồm Opus 4.7 và GPT-5.5 Điểm yếu: pricing chưa ổn định; không có benchmark data; lịch sử sử dụng production còn hạn chế

Bảng điểm benchmark

Tất cả số liệu từ nguồn gốc, tháng 5 năm 2026. SWE-bench Verified và Aider Polyglot đo các tập task khác nhau — không thể so sánh trực tiếp giữa các hàng.

Công cụ / Model	Benchmark	Điểm	Nguồn
Claude Code — Opus 4.7	SWE-bench Verified	87.6%	swebench.com
OpenAI Codex CLI — GPT-5.3-Codex	SWE-bench Verified	85.0%	swebench.com
Gemini CLI — Gemini 2.5 Pro	SWE-bench Verified	80.6%	swebench.com
Aider — GPT-5 High	Aider Polyglot	88.0%	aider.chat/docs/leaderboards
Aider — Gemini 2.5 Pro	Aider Polyglot	83.1%	aider.chat/docs/leaderboards
Aider — DeepSeek-V3.2-Exp	Aider Polyglot	74.2%	aider.chat/docs/leaderboards

Điểm Aider Polyglot cao hơn SWE-bench Verified với cùng model vì hai benchmark đo những thứ khác nhau. Polyglot tập trung vào task hoàn thiện code đa ngôn ngữ; SWE-bench Verified kiểm tra các vấn đề software engineering thực tế. Không cái nào là bức tranh hoàn chỉnh.

Kết luận

Chọn dựa trên ràng buộc thực tế của bạn:

Agentic power tối đa → Claude Code Max (Opus 4.7). 87.6% SWE-bench Verified. Autonomous loop mạnh nhất trong danh sách này trên task phức tạp nhiều file.
Miễn phí và đủ dùng → Gemini CLI. 1.000 req/ngày trên Gemini 2.5 Pro với live search grounding. Dùng thực sự hàng ngày, không cần thẻ tín dụng.
Bảo mật hoặc local model → Aider + Ollama. Chạy DeepSeek-Coder hay Qwen2.5-Coder cục bộ với chi phí API $0. Git auto-commits, hỗ trợ 100+ model.
Team dùng GitHub là trung tâm → GitHub Copilot CLI. Tích hợp tốt nhất với PR, issue, và Actions. Kết hợp với một agent coding mạnh hơn cho các task lập trình.
Người dùng ChatGPT Plus → OpenAI Codex CLI. Không tốn thêm trên subscription hiện có. GPT-5 đạt 85% SWE-bench, hỗ trợ đính kèm ảnh.
Muốn khám phá → Amp. Miễn phí hiện tại, lựa chọn model mạnh, nhưng chờ pricing ổn định trước khi cam kết.

Lộ trình thực tế cho hầu hết terminal developer: cài Gemini CLI ngay hôm nay để có baseline miễn phí và hiệu chỉnh những gì bạn thực sự cần từ một AI coding tool. Khi đã biết rõ pattern sử dụng, nâng lên Claude Code Pro khi bạn muốn không còn phải quản lý giới hạn free tier.

Đối với tầng quản lý kiến thức đi kèm với bất kỳ công cụ nào trong số này, xem so sánh Notion vs Obsidian của chúng tôi — cách chọn second brain cho developer trong năm 2026.

Lưu ý

SWE-bench Verified dùng Python GitHub issue làm tập kiểm tra. Hiệu năng trên TypeScript monorepo, systems code bằng Go hay Rust, hoặc codebase proprietary nội bộ có thể khác với các điểm số này. Aider Polyglot leaderboard đo phân phối task khác và không thể so sánh trực tiếp với các con số SWE-bench.

Ước tính chi phí API Aider ($200–$500/tháng) là khoảng cộng đồng báo cáo cho power user chạy frontier model hết công suất. Chi phí thực tế phụ thuộc hoàn toàn vào lựa chọn model và volume sử dụng của bạn.

Toolchew không có quan hệ affiliate với bất kỳ công cụ nào trong bài so sánh này. Không công cụ nào trả tiền để được xếp hạng hay ảnh hưởng đến kết luận.