LLM router tốt nhất 2026: OpenRouter, LiteLLM, Portkey

LiteLLM là LLM router tốt nhất cho các team tự quản lý hạ tầng — P95 8ms tại 1.000 RPS, không tốn chi phí mỗi request, và hơn 100 provider tích hợp trong một proxy self-hosted duy nhất. Nếu bạn không muốn phải duy trì server, OpenRouter cho bạn truy cập hơn 300 model qua một API key mà không cần deploy bất cứ thứ gì. Portkey lấp khoảng trống khi chứng nhận tuân thủ là yêu cầu bắt buộc.

Bài này dành cho ai

Backend engineer và AI team đang chọn routing layer vào giữa năm 2026. Nếu bạn chỉ gọi một model từ một app, bạn không cần router. Các công cụ này đáng đầu tư khi bạn muốn phân tải qua nhiều provider, kiểm soát chi phí theo team, hoặc điều hướng từng loại query đến model phù hợp — cùng logic mà Cursor dùng nội bộ khi định tuyến các lần chỉnh sửa code của bạn giữa các model tùy độ phức tạp của tác vụ.

Những gì chúng tôi đánh giá

Năm công cụ: OpenRouter, LiteLLM (v1.85.0), Portkey, Not Diamond và Martian. Chúng tôi xem xét tài liệu công khai, trang giá, lịch sử release trên GitHub và các thảo luận trên Hacker News, G2 và Gartner Peer Insights tính đến tháng 5/2026. Số liệu độ trễ lấy từ tài liệu vendor và các benchmark cộng đồng có tên tuổi.

Bảng so sánh nhanh

Công cụ	Phù hợp nhất	Open source?	Self-host?
OpenRouter	Danh mục model rộng nhất, không cần cài đặt	Không	Không
LiteLLM	Kiểm soát hoàn toàn hạ tầng, quản trị chi phí	Có (47.7k ⭐)	Có
Portkey	Tuân thủ doanh nghiệp + observability	Một phần (gateway OSS)	Có / Managed
Not Diamond	Chọn model theo từng query trên stack sẵn có	Không	Không
Martian	Intelligent routing khối lượng lớn với tracing	Không	Không

OpenRouter

openrouter.ai — SaaS, không cần deploy

OpenRouter tập hợp hơn 300 model từ OpenAI, Anthropic, Google, Meta, Mistral, Groq và hàng chục provider khác sau một endpoint tương thích OpenAI. Một API key, một quan hệ thanh toán, truy cập ngay vào tất cả mọi thứ trong danh sách.

Gói miễn phí cho bạn 50 request/ngày trên các model free-tier. Nạp $10 credit và con số đó tăng lên 1.000 request/ngày. OpenRouter chuyển thẳng giá inference mà không đánh thêm phí — bạn trả bằng mức đi thẳng đến từng provider. Nền tảng cộng thêm phí 5.5% cho thanh toán thẻ tín dụng (5% cho crypto).

Tính năng nổi bật: Auto Router và Pareto Router (tối ưu cho coding). Thay vì hardcode tên model, bạn trỏ đến một router slug và để OpenRouter chọn dựa trên loại tác vụ và mục tiêu chi phí. Tự động chuyển sang provider dự phòng khi provider gặp sự cố. Các tính năng ở cấp model — semantic caching, web search, hỗ trợ multimodal PDF/audio/video — đều có sẵn mà không cần cấu hình thêm.

Overhead độ trễ: 50–70ms mỗi request. Đây là chi phí thực sự với các luồng nhạy cảm về độ trễ và các stack chạy qua nhiều middleware.

Điểm cần lưu ý: OpenRouter định kỳ đổi tên model ID. Nếu bạn hardcode tên model trong code, hãy chuẩn bị gặp lỗi invalid model ID sau khi đổi tên mà không có cảnh báo trước. Hỗ trợ khách hàng chỉ qua Discord; nhiều người dùng phản ánh tài khoản bị khóa và không được xử lý trong nhiều ngày. Model free-tier có rate limit rõ ràng và không phù hợp cho production traffic. Credit hết hạn sau một năm không hoạt động.

Phù hợp nhất với: Developer indie và người làm prototype muốn truy cập ngay mọi model lớn mà không cần deploy hay duy trì bất cứ thứ gì.

LiteLLM

github.com/BerriAI/litellm — open source, self-hosted

LiteLLM là Python proxy bọc hơn 100 LLM provider — Azure, AWS Bedrock, Vertex AI, Anthropic, Groq, Together AI và nhiều hơn nữa — sau một interface tương thích OpenAI. Với 47.700 GitHub stars và 1.326 release (v1.85.0, ngày 17/5/2026), đây là LLM gateway được duy trì tích cực nhất trong hệ sinh thái open source.

P95 latency là 8ms tại 1.000 RPS trong môi trường self-hosted. Không có round-trip ra bên ngoài — proxy của bạn chạy trên hạ tầng của bạn, ngay cạnh ứng dụng. Sự khác biệt giữa 8ms và 50–70ms của OpenRouter có ý nghĩa thực sự khi bạn xây dựng inference pipeline nhạy cảm về độ trễ hoặc các vòng lặp agent thời gian thực.

Tính năng nổi bật: Virtual API key với giới hạn ngân sách theo từng key. Cấp key riêng cho mỗi team, dự án hoặc user; đặt hạn mức chi tiêu theo ngày hoặc tháng; theo dõi chi phí chi tiết trên toàn tổ chức. Fallback, retry, load balancing và context-window-aware routing đều có thể cấu hình theo từng route. Kết quả: routing multi-provider giống OpenRouter nhưng chạy trên hạ tầng của bạn, không tốn phí mỗi request. Phân tích chi tiết về loại task nào được hưởng lợi từ việc định tuyến sang model rẻ hơn có trong LLM cost routing: khi nào Haiku thắng Opus và khi nào không.

Giá: Proxy hoàn toàn miễn phí. Gói Enterprise bổ sung SSO, RBAC, audit log và tích hợp secret vault — yêu cầu tối thiểu 100 người dùng hoặc 10 AI use case trong production và tính giá theo mức sử dụng (liên hệ sales). Một trường đại học đã triển khai LiteLLM để quản trị chi phí đa model trên nhiều khoa; đây là kiến trúc phổ biến cho các team cần phân tách provider đi kèm theo dõi mức sử dụng.

Điểm cần lưu ý: Self-hosting một proxy high-availability trong production đòi hỏi kỹ năng platform engineering thực thụ. Bạn chịu trách nhiệm về uptime, chu kỳ nâng cấp và lớp observability. Không có gói managed. Nếu bạn muốn tính năng tương đương mà không phải gánh chi phí vận hành, Portkey là lựa chọn gần hơn.

Phù hợp nhất với: Engineering team có DevOps, cần auditability open-source, routing latency dưới 10ms và quản trị chi phí chặt chẽ theo team trên stack LLM đa provider.

Portkey

portkey.ai — managed SaaS, có tùy chọn OSS self-hosted

Portkey là AI gateway được xây dựng cho các môi trường mà tuân thủ là yêu cầu cứng. Nó đưa hơn 250 model (và 1.600+ bao gồm cả model fine-tuned của khách hàng) sau một managed endpoint và bổ sung semantic caching, guardrail, full request/response logging và cost attribution. Gateway OSS có thể self-host; gói managed chạy trên hạ tầng edge worker toàn cầu của Portkey.

Tuân thủ ISO 27001, SOC 2 Type 2, GDPR và HIPAA có sẵn trên tất cả gói managed. Trên G2, Portkey đạt 4.8/5 — reviewer doanh nghiệp đặc biệt đề cao dashboard observability và sự phản hồi của đội hỗ trợ trong quá trình đánh giá PoC. Gartner Peer Insights nhấn mạnh khả năng bật model nhanh là lợi thế thực tế cho các team thường xuyên chuyển đổi provider.

Tính năng nổi bật: Semantic caching xác định các query tương tự về ngữ nghĩa và phục vụ phản hồi từ cache. Kiểm thử nội bộ của Portkey cho thấy tỷ lệ cache hit khoảng 20% cho workload Q&A và RAG, với kịch bản RAG dao động từ 18% đến 60% tùy phân phối query — mỗi cache hit loại bỏ hoàn toàn một lần gọi LLM. Guardrail xác định và do AI hỗ trợ đều có sẵn trên cùng endpoint.

Giá:

Developer (managed): Miễn phí, 10.000 request được log/tháng, lưu log 3 ngày
Production: $49/tháng, 100.000 log/tháng với phần vượt $9/100K, lưu 30 ngày
Enterprise: Giá tùy chỉnh, triển khai VPC, 10M+ log, SSO, custom guardrail hook

Điểm cần lưu ý: Hạn mức 100K log của gói Production nhanh chóng cạn ở quy mô lớn — một microservice bận rộn có thể đạt giới hạn trong vài ngày và phí vượt mức tích lũy đáng kể. Hỗ trợ MCP (Model Context Protocol) gateway cho agentic workflow được mô tả là còn hạn chế tính đến đầu 2026. Bạn trả theo log, không theo inference token, khiến dự đoán chi phí khó hơn.

Phù hợp nhất với: Team ở giai đoạn tăng trưởng và doanh nghiệp trong các ngành có quy định chặt — y tế, tài chính, pháp lý — cần chứng nhận tuân thủ, observability sâu và trải nghiệm managed hoàn chỉnh.

Not Diamond

notdiamond.ai — SaaS routing layer (không phải standalone gateway)

Not Diamond làm một việc duy nhất: đọc từng query đến và quyết định model nào nên xử lý nó. Lookup đơn giản được chuyển đến model rẻ hơn, nhanh hơn. Suy luận phức tạp được chuyển đến frontier model. Kết quả công bố là tiết kiệm hơn 50% chi phí với độ chính xác cải thiện hơn 10% so với định tuyến tất cả vào một model duy nhất. Case study của Rootly báo cáo tăng 39% độ chính xác trung bình trên các benchmark SRE.

Một điểm quan trọng cần làm rõ trước khi đánh giá: Not Diamond không phải là standalone gateway. Nó đặt trên OpenRouter, HuggingFace hoặc stack provider hiện tại của bạn. Nó định tuyến — nó không proxy. Bạn vẫn cần một gateway phía dưới để thực sự gọi các model, và bạn trả chi phí routing lẫn chi phí inference riêng biệt.

Tính năng nổi bật: Training router tùy chỉnh chỉ cần ít nhất 3 data sample. Bạn có thể train router riêng cho phân phối tác vụ của mình — hữu ích nếu workload có hỗn hợp đặc thù, chẳng hạn một pipeline dịch vụ khách hàng luân phiên giữa lookup ngắn và tóm tắt dài.

Giá: 10.000 routing recommendation/tháng miễn phí, sau đó $10/10.000 thêm. Gói Enterprise bổ sung VPC deployment, bring-your-own-models và chính sách zero-data-retention tùy chỉnh.

Routing latency: Overhead 10–100ms mỗi request tùy độ phức tạp của router, cộng thêm vào overhead của gateway phía dưới.

Phù hợp nhất với: Team đã có gateway và muốn cắt giảm chi phí inference bằng cách chuyển query dễ sang model rẻ hơn — đặc biệt có giá trị cho agent pipeline có độ phức tạp hỗn hợp.

Martian

route.withmartian.com — enterprise SaaS, liên hệ sales

Martian là intelligent router chuyên dụng từ một startup San Francisco được báo cáo đang tiến gần mức định giá $1.3 tỷ (tháng 4/2026). Nó phân tích từng prompt theo thời gian thực và định tuyến đến model có khả năng xử lý tốt nhất, kèm full tracing các quyết định routing, độ trễ và cost attribution theo từng request. Accenture sử dụng nó trong các workflow AI doanh nghiệp theo chương trình xác nhận Project Spotlight.

Benchmark vendor công bố giảm 20–97% chi phí và độ chính xác “thường vượt GPT-4 trên các benchmark quan trọng” — không có con số nào được xác minh độc lập. Overhead routing latency là 20–50ms.

Giá: Theo khối lượng, liên hệ sales. Không có self-service hay trang giá công khai.

Phù hợp nhất với: Doanh nghiệp lớn vận hành khối lượng AI traffic hỗn hợp cao, nơi một router chuyên dụng với built-in tracing đáng để mở cuộc trò chuyện về giá không minh bạch.

Hướng dẫn chọn LLM router

Chọn OpenRouter nếu bạn đang prototype hoặc xây dựng app indie. Không cần cài đặt, đủ mọi model, một API key. Chấp nhận overhead 50–70ms và chuẩn bị cho khả năng model ID đổi tên không báo trước.

Chọn LiteLLM nếu team của bạn kiểm soát hạ tầng và cần quản trị chi phí với routing latency dưới 10ms. Tính toán chi phí DevOps để vận hành ổn định trong production.

Chọn Portkey nếu bạn hoạt động trong ngành có quy định chặt hoặc cần SOC 2/HIPAA ngay từ đầu. Theo dõi giới hạn log volume trong gói $49/tháng — nó cạn nhanh hơn con số gợi ý.

Thêm Not Diamond nếu bạn đã có gateway và muốn chọn model theo từng query để cắt chi phí. Đừng dùng nó làm routing layer duy nhất — nó không có khả năng proxy.

Liên hệ Martian nếu bạn vận hành traffic AI quy mô doanh nghiệp và cần routing traceability được tích hợp sẵn từ đầu.

Vấn đề cốt lõi mà tất cả các công cụ này giải quyết giống với những gì Cursor xử lý nội bộ: model nhanh và rẻ nhất cho một completion đơn giản không phải là model bạn muốn dùng cho câu hỏi kiến trúc khó. Một routing layer cho phép bạn hành động dựa trên sự khác biệt đó một cách có hệ thống, thay vì chọn một model và trả giá đắt cho phân nửa số request. Nếu bạn cũng đang chọn AI coding assistant đặt trên routing layer, AI coding CLI tốt nhất năm 2026 là bài đọc tiếp theo.

Nhận định

LiteLLM cho team tự quản lý hạ tầng. OpenRouter cho tất cả những ai không có điều kiện đó. Portkey khi tuân thủ là yêu cầu bắt buộc. Not Diamond như một lớp tối ưu hóa trên stack đã có sẵn. Martian chỉ khi bạn đủ lớn để cuộc trò chuyện về giá không minh bạch là xứng đáng.

Lưu ý

Latency của OpenRouter (50–70ms) dựa trên báo cáo cộng đồng và tài liệu vendor, không phải đo lường độc lập trong lab.
P95 8ms của LiteLLM chỉ là overhead proxy, đo với mock endpoint tại 1.000 RPS (benchmark vendor); latency end-to-end bao gồm LLM inference sẽ cao hơn.
Con số tiết kiệm 50%+ của Not Diamond và mức tăng độ chính xác 39% của Rootly là case study do vendor công bố, chưa có xác minh độc lập.
Con số định giá $1.3 tỷ của Martian đến từ một bài báo duy nhất; hãy coi là chưa xác minh.
Bài viết này có chứa affiliate link đến Cursor.