Codex CLI 2026: Đánh giá thực chiến — OpenAI và terminal

Codex CLI của OpenAI là công cụ phù hợp cho các tác vụ terminal chạy tự động: tạo PR không đồng bộ, viết script DevOps, duyệt code hàng loạt. Trên Terminal-Bench 2.0, GPT-5.5 đạt 82.7% so với 69.4% của Claude Opus 4.7 — khoảng cách 13 điểm, không phải chênh lệch nhỏ. Nó cũng tiêu thụ ít hơn 3–4 lần token cho cùng một tác vụ tương đương. Điểm yếu của Codex là refactor phức tạp trên nhiều file: trong SWE-bench Pro, Claude dẫn với tỷ lệ 64.3% so với 58.6%. Codex là một AI agent có năng lực thực sự. Claude Code vẫn là lựa chọn tốt hơn khi bạn cần một đối tác lập trình đồng hành.

Ai nên dùng Codex CLI

Các lập trình viên làm việc chủ yếu trên terminal, muốn giao tác vụ rồi quay lại thấy PR đã xong — kỹ sư DevOps, backend team với workload script có thể dự đoán được, bất kỳ ai cần chạy tự động hóa hàng loạt trên nhiều repo. Nếu bạn cần agent đồng hành qua suốt quá trình refactor khó, liên tục nhận phản hồi từ bạn và điều chỉnh, Claude Code phù hợp hơn.

Bài đánh giá này tập trung vào Codex CLI (local, open-source, v0.130.0, phát hành 2026-05-08). Không bao gồm Codex cloud sandbox trong ChatGPT — sản phẩm đó chạy trên hạ tầng của OpenAI và có đặc tính hiệu năng khác. CLI và cloud không phải chú thích phụ; đây là hai công cụ riêng biệt.

Những gì chúng tôi kiểm tra

Không có workload kiểm thử nội bộ nào được chạy cho bài viết này. Các số benchmark dưới đây đến từ đánh giá của chính OpenAI và các bên so sánh độc lập (có dẫn nguồn theo từng claim). Chúng tôi nêu rõ điều này ở những chỗ quan trọng. Phiên bản được ghim ở CLI v0.130.0 với GPT-5.5 là model chính; kết quả của GPT-5.3-Codex được ghi chú riêng khi có.

Kết quả đánh giá

Phạm vi tác vụ — Codex được xây dựng cho điều gì

Codex CLI là một async agent. Cách hoạt động: mô tả tác vụ, để agent chạy, quay lại thấy PR đã hoàn thành. Đó là triết lý thiết kế của nó, và cũng là nơi nó liên tục vượt trội so với các lựa chọn khác.

Trên Terminal-Bench 2.0 — benchmark đo lường các tác vụ CLI và DevOps — GPT-5.5 đạt 82.7%. Claude Opus 4.7 đạt 69.4%. GPT-5.3-Codex đạt 77.3%. Dẫn trước 13.3 điểm qua ba phiên bản model là một lợi thế có tính cấu trúc, không phải kết quả ngẫu nhiên của một lần chạy.

Trên SWE-bench Verified (giải quyết GitHub issue tổng hợp), GPT-5.5 đạt 88.7% so với 87.6% của Claude Opus 4.7. Codex dẫn 1.1 điểm ở đây — sân nhà của nó với các tác vụ độc lập, yêu cầu rõ ràng.

Trên SWE-bench Pro — tác vụ thực tế với codebase lộn xộn và tiêu chí đánh giá mơ hồ hơn — thứ hạng đảo ngược: Claude Opus 4.7 đạt 64.3%, GPT-5.5 đạt 58.6%. Khoảng cách 5.7 điểm. Báo cáo từ cộng đồng HN đồng nhất với điều này: người dùng mô tả Codex suy luận về “server backend và REST API trong ứng dụng không hề có những thứ đó” khi gặp codebase lạ.

Có một pattern rõ: Codex biết lãnh địa của mình. Tác vụ terminal gọn gàng, script có spec cụ thể, tạo PR từ brief ngắn — nó giao hàng đúng hẹn. Refactor phức tạp với ngữ cảnh tích lũy, debug từng bước, review code trong monorepo lộn xộn — khả năng hiểu repo sâu hơn của Claude Code mới thể hiện được thế mạnh. Xem bài Claude Code vs Codex CLI để so sánh trực tiếp theo từng benchmark.

Khả năng thực thi song song là điểm mạnh thực sự: 8 subagent chạy đồng thời, cấu hình được theo từng permission profile. Với team cần duyệt code hàng loạt trên toàn repo, hoặc tạo boilerplate cho nhiều service cùng lúc, điều này cộng hưởng với lợi thế hiệu quả token.

Tốc độ và hiệu quả token

So sánh với bài toán clone Figma là điểm dữ liệu đơn rõ ràng nhất: Claude Code tiêu thụ 6.23M token cho một tác vụ tương đương mà Codex chỉ dùng 1.5M. Chênh lệch 4 lần. Ở mức giá API $1.75/1M input token cho GPT-5.5 so với $5/1M cho Claude Opus 4.7, con số này cộng dồn thành chênh lệch chi phí khoảng 15 lần mỗi tác vụ. Để phân tích tổng chi phí sở hữu, xem Chi phí thực khi chạy AI agent team năm 2026.

GPT-5.3-Codex nhanh hơn 25% so với model tiền nhiệm. GPT-5.3-Codex-Spark (bản research preview) vượt 1,000 token/giây. Với team chạy tự động hóa khối lượng lớn, những con số này ảnh hưởng thực sự đến throughput.

Codex cũng nhẹ hơn cho máy bạn: footprint RAM khoảng 80MB so với yêu cầu vài GB của Claude Code. Trên máy dev thì không đáng kể. Nhưng trên CI runner bị giới hạn tài nguyên hoặc VM ít bộ nhớ, điều này có ý nghĩa.

Cửa sổ sử dụng trên gói subscription là rolling 5 tiếng, không reset hàng ngày. Nếu workload của bạn có tính bursty — tự động hóa dồn vào buổi sáng, rồi không làm gì nữa — cửa sổ rolling này có thể bất lợi cho bạn.

Ngữ cảnh và quy mô repo

GPT-5.4 (tháng 3/2026) ra mắt với context window 1M token. GPT-5.1-Codex-Max thêm tính năng “compaction” — tổng hợp các context window trước đó để duy trì tính mạch lạc khi làm việc qua hàng triệu token, được ghi nhận cho các lần chạy tự động kéo dài 24+ giờ.

Điểm lưu ý là chi phí. Prompt vượt 272K token trên API GPT-5.5 sẽ kích hoạt phụ phí 2× cho input và 1.5× cho output. Context 1M của Claude Code không có ngưỡng phạt tương đương. Với repo lớn mà prompt thường xuyên vượt 272K token, hãy tính toán chi phí thực tế trước khi cho rằng Codex rẻ hơn.

Với các tác vụ tự động dài hạn — phát triển tính năng qua nhiều phiên làm việc, migration quy mô lớn — GPT-5.1-Codex-Max là model cần đánh giá. Cách tiếp cận compaction có kiến trúc khác so với extended context của Claude; liệu nó có hoạt động tốt trên workload cụ thể của bạn hay không cần phải kiểm thử thực tế.

Chất lượng diff và gánh nặng review

Chế độ auto-review (GA tháng 5/2026) thêm một subagent tự động duyệt các lệnh shell có rủi ro thấp. Ngưỡng phê duyệt có thể cấu hình theo từng permission profile. Điều này giảm đáng kể ma sát từ việc phải click xác nhận liên tục trong các lần chạy async dài.

Phản hồi từ cộng đồng có phần trái chiều. Tốc độ release nhanh đồng nghĩa với việc tính năng có thể bị lỗi giữa các phiên bản — thread HN ghi lại các lỗi model mặc định ngay khi ra mắt. Rủi ro hallucination trên codebase lạ cao hơn Claude Code. Đánh đổi ở đây là tốc độ và throughput: Codex ra nhanh, cập nhật nhanh, và đôi khi có sự cố giữa các release.

Với team luôn review từng diff trước khi merge — điều bạn nên làm — gánh nặng review vẫn ở mức kiểm soát được. Với team kỳ vọng Codex tự merge không cần giám sát, tỷ lệ hallucination trên code phức tạp chưa đủ thấp để tin tưởng vào điều đó.

Guardrail và hành vi dừng an toàn

Ranh giới sandbox: giới hạn write, chính sách mạng, các đường dẫn được bảo vệ. Chính sách phê duyệt phân biệt lệnh rủi ro thấp (tự động duyệt) với lệnh nguy hiểm (yêu cầu xác nhận hoặc bị chặn). Gói Enterprise bổ sung logging OpenTelemetry, compliance log, SAML SSO, RBAC và data residency.

Hooks đạt GA vào tháng 5/2026 cùng với hỗ trợ lifecycle compaction. Với team cần tích hợp Codex vào pipeline CI/CD với logic pre- và post-run cụ thể, đây là con đường tích hợp phù hợp.

Tài liệu bảo mật tại developers.openai.com/codex/security khá chi tiết. Với môi trường có yêu cầu tuân thủ quy định, bộ tính năng compliance của gói enterprise là có thực — không phải chỉ để đánh dấu ô kiểm.

Kết luận

Dùng Codex CLI nếu use case chính của bạn là script terminal, tự động hóa DevOps, hoặc tạo PR chạy nền không cần giám sát. Lợi thế trên Terminal-Bench có tính cấu trúc. Lợi thế hiệu quả token là thực tế và cộng dồn ở quy mô lớn. Mô hình async phù hợp tự nhiên với workload giao việc rồi quay lại lấy kết quả.

Dùng Claude Code nếu bạn đang refactor phức tạp nhiều file, cần hiểu sâu ngữ cảnh trên codebase lớn hoặc chưa quen thuộc, hoặc muốn một agent bám sát qua nhiều vòng trao đổi qua lại. Khoảng cách 5.7 điểm trên SWE-bench Pro có ý nghĩa thực tế.

Dùng cả hai là một chiến lược hợp lý: Codex cho batch và DevOps, Claude Code cho những vấn đề khó. Ở mức giá khởi điểm tương đương ($20/tháng mỗi tool), chi phí cận biên của một tool thứ hai là thấp nếu workload của bạn tách biệt rõ ràng.

Lưu ý quan trọng

Không có kiểm thử nội bộ. Mọi số benchmark trong bài viết này đều từ đánh giá của chính OpenAI hoặc bên so sánh độc lập. Chúng tôi không chạy workload kiểm thử có kiểm soát. Các con số là dữ liệu công khai tốt nhất hiện có; đây không phải xác nhận độc lập.

Định danh model. “GPT-5.5 trong Codex” — chưa được công bố chính thức liệu đây là GPT-5.5 gốc hay một fine-tune (dòng codex-1). OpenAI chưa làm rõ. Các điểm benchmark được gán cho GPT-5.5 theo các nguồn so sánh chúng tôi trích dẫn; hãy diễn giải theo đó.

Khuyến mãi Pro 2×. Gói Pro 5× giá $100/tháng bao gồm nhân 2× cho đến ngày 31/5/2026. Nếu bạn đọc bài này từ tháng 6 trở đi, hãy xác minh giá hiện tại tại developers.openai.com/codex/pricing.

CLI vs. cloud. Bài đánh giá này chỉ bao gồm CLI local. Codex cloud trong ChatGPT chạy trong sandbox của OpenAI và có model thực thi khác, độ trễ khác, và đặc tính hiệu năng khác. Điểm benchmark từ Codex cloud không áp dụng trực tiếp cho CLI.

Không có quan hệ affiliate. OpenAI không có chương trình affiliate công khai cho Codex hoặc ChatGPT tính đến tháng 5/2026.

Tham khảo

Claim	Nguồn
CLI v0.130.0, Apache-licensed, Rust	github.com/openai/codex
Điểm Terminal-Bench 2.0	morphllm.com/comparisons/codex-vs-claude-code
Điểm SWE-bench Pro	morphllm.com/comparisons/codex-vs-claude-code
Điểm SWE-bench Verified	morphllm.com/comparisons/codex-vs-claude-code
So sánh token bài toán Figma-clone	morphllm.com/comparisons/codex-vs-claude-code
Benchmark tốc độ GPT-5.3-Codex	neowin.net — GPT-5.3-Codex debut
Giá Codex	developers.openai.com/codex/pricing
Báo cáo cộng đồng (hallucination, vòng lặp)	news.ycombinator.com/item?id=43708025
Agent approvals / sandbox	developers.openai.com/codex/agent-approvals-security
Thống kê người dùng	gradually.ai/en/codex-statistics
Lịch sử Codex 2021 vs 2025	aiwiki.ai/wiki/codex
Trạng thái affiliate	seofai.com/openai-affiliate-program