GitHub Models cho phép mọi tài khoản GitHub truy cập miễn phí vào GPT-4o, Llama, DeepSeek, và hơn chục model khác thông qua một API tương thích với OpenAI. Dùng nó khi bạn đang xây prototype và cần truy cập LLM mà không cần nhập thẻ tín dụng. Đừng dùng cho production — điều khoản dịch vụ của gói miễn phí cấm rõ ràng điều đó, và khi bạn chuyển sang pay-as-you-go, trong nhiều trường hợp đi thẳng đến nhà cung cấp model sẽ tốt hơn.

Dành cho ai

Developer đơn lẻ và nhóm nhỏ đang xây proof-of-concept, muốn truy cập LLM không rào cản trong hệ sinh thái GitHub. Nếu bạn có traffic thực sự hoặc cần gọi API tự động nhiều hơn vài chục lần mỗi ngày, giới hạn tốc độ sẽ chặn bạn lại trước khi buổi sáng kết thúc.

Những gì chúng tôi thử nghiệm

GitHub Models tính đến tháng 6 năm 2026: giới hạn tốc độ gói miễn phí được ghi chép tại docs.github.com/en/github-models, endpoint inference tương thích OpenAI tại https://models.github.ai, xác thực qua PAT, và playground trên trình duyệt. Tất cả con số giới hạn đều lấy từ tài liệu prototyping chính thức — chúng tôi ghi chú rõ khi nguồn có cảnh báo “có thể thay đổi”.

GitHub Models vẫn đang ở public preview tính đến tháng 6 năm 2026. Chưa có thông báo GA. Hãy tính đến điều này khi lập kế hoạch production.

Danh mục model

Catalog của GitHub bao gồm 15+ model từ năm nhà cung cấp tính đến tháng 6 năm 2026:

Nhà cung cấp	Model
OpenAI	GPT-4o, GPT-4o Mini, GPT-4.1, GPT-4.1 Mini, GPT-5
Microsoft	Phi-4, Phi-4 Mini Instruct, Phi-4 Multimodal Instruct
Meta	Llama-4 Maverick 17B, Llama-3.3-70B
DeepSeek	DeepSeek-R1, DeepSeek-R1-0528, DeepSeek-V3-0324
xAI	Grok-3, Grok-3 Mini

Đây là danh sách đáng tin cậy cho mục đích prototyping. GPT-4o, Llama-3.3-70B, DeepSeek-R1, và Grok-3 đều có mặt. Không có model frontier quan trọng nào vắng mặt — đủ cho mọi nhu cầu của một side project.

GitHub phân model thành các tier để kiểm soát giới hạn tốc độ gói miễn phí: low complexity (model nhỏ, nhanh hơn như GPT-4o Mini và Phi-4 Mini), high complexity (model frontier như GPT-4o và Llama-3.3-70B), và tier specialized cho các model nặng về reasoning (DeepSeek-R1, Grok-3). Catalog API trả về trường rate_limit_tier cho từng model nếu bạn cần query theo cách lập trình.

Một điểm cần phân biệt: GitHub Models hoàn toàn tách biệt với GitHub Copilot. Copilot Chat có model routing riêng theo license. GitHub Models dành để bạn tự build ứng dụng AI — hạ tầng khác, billing khác, catalog khác.

Giới hạn tốc độ trong thực tế

Giới hạn chính thức của gói miễn phí tính đến tháng 6 năm 2026, từ tài liệu prototyping:

Tier	Requests/phút	Requests/ngày	Input tokens/req	Output tokens/req	Đồng thời
Low complexity	15	150	8,000	4,000	5
High complexity	10	50	8,000	4,000	2
Reasoning (DeepSeek-R1, Grok-3)	1–2	8–15	4,000	4,000	1

150 lần gọi low-complexity mỗi ngày là đủ để kiểm chứng ý tưởng khi có người dùng thực ở đầu kia. Còn với batch job, data pipeline, hay vòng lặp agent tự động, bạn sẽ hết quota ngày chỉ trong vài phút.

Tài liệu có cảnh báo rõ ràng: giới hạn này có thể thay đổi mà không báo trước, và không có SLA nào được công bố. Bạn đang build trên một sản phẩm public preview mà không có bất kỳ cam kết nào về uptime hay giới hạn tốc độ.

Khi chạm trần, có ba hướng tiếp theo:

Nâng cấp plan GitHub Copilot. GitHub Copilot Individual ($10/tháng) tăng giới hạn tốc độ GitHub Models của bạn vượt mức mặc định gói miễn phí. Đây là cách nhanh nhất để có thêm headroom mà không rời khỏi hệ sinh thái billing của GitHub.

Bật pay-as-you-go. GitHub tính phí theo đơn vị token với giá $0.00001 mỗi token unit. Mức giá per-token dùng hệ số nhân: input token GPT-4o có giá $2.50/1M (hệ số 0.25× — tức 250,000 token units cho 1M token thực tế ở $0.00001/token unit), khớp đúng với mức giá trực tiếp của OpenAI. Với các model khác, kiểm tra hệ số cụ thể tại docs.github.com/en/billing/reference/costs-for-github-models — model rẻ hơn có hệ số thấp hơn, model cao cấp có hệ số cao hơn.

Chuyển thẳng sang nhà cung cấp trả phí. Nếu khối lượng prototyping cho thấy dự án có triển vọng, hãy cân nhắc OpenAI API và Anthropic API trực tiếp. Bạn mất UX của GitHub nhưng có nhiều quyền kiểm soát hơn về quota, billing, và lựa chọn model mà không qua một lớp proxy billing trung gian. Nếu muốn truy cập nhiều provider qua một key trong lúc đánh giá, xem so sánh OpenRouter vs. direct API của chúng tôi.

Endpoint tương thích OpenAI

Endpoint inference tại https://models.github.ai triển khai schema OpenAI API. Chỉ cần thay đổi hai dòng để trỏ bất kỳ OpenAI SDK client nào sang GitHub Models:

from openai import OpenAI
import os

client = OpenAI(
    base_url="https://models.github.ai/inference",
    api_key=os.environ["GITHUB_TOKEN"]
)

response = client.chat.completions.create(
    model="openai/gpt-4o-mini",
    messages=[{"role": "user", "content": "Hello"}]
)

Việc thay thế trực tiếp này hoạt động được, nhưng có hai điểm cần chú ý:

Định dạng Model ID. GitHub Models dùng identifier theo dạng provider/model-name — openai/gpt-4o, không phải gpt-4o. Code nào truyền tên model trần vào endpoint sẽ nhận lỗi validation. Chỉ cần sửa một dòng, nhưng sẽ gây bất ngờ nếu bạn đang copy từ một tutorial OpenAI.

Hỗ trợ tham số khác nhau tùy model. Không phải tất cả tham số request của OpenAI đều áp dụng được cho mọi model trong catalog. Model multimodal như Phi-4 Multimodal Instruct yêu cầu định dạng đầu vào cụ thể cho nội dung hình ảnh. Trước khi giả định model chỉ xử lý text, hãy kiểm tra catalog endpoint (GET https://models.github.ai/catalog/models) để xem supported_input_modalities và supported_output_modalities của từng model.

Lỗi rate limit trả về HTTP 429 kèm response headers chỉ rõ giới hạn nào bị chạm — request rate hay daily budget, theo phút hay theo ngày. Granularity này rất hữu ích: bạn có thể phân biệt giữa gọi quá nhanh và hết quota ngày.

Một lưu ý về changelog: endpoint Azure cũ (models.inference.ai.azure.com) đã bị deprecated. Các tutorial và blog post cũ vẫn còn tham chiếu đến nó. Nếu code của bạn dùng base URL đó, hãy cập nhật sang models.github.ai.

Trải nghiệm sử dụng

Xác thực. Tạo fine-grained PAT tại github.com/settings/tokens với scope models:read. Classic PAT cũng dùng được — không cần thêm scope. Set nó là GITHUB_TOKEN trong environment, truyền dưới dạng Bearer token là xong. Đây là con đường nhanh nhất từ zero đến một API call hoạt động trong số tất cả các LLM service được host mà chúng tôi đã thử.

Playground. Không cần cài đặt gì — bất kỳ người dùng GitHub đã đăng nhập nào cũng có thể mở github.com/marketplace/models, chọn model, và bắt đầu prompting ngay trên trình duyệt. Từ tháng 12 năm 2024, playground hiển thị latency theo thời gian thực, số lượng input token và output token cho mỗi request. Đây là cách nhanh nhất để so sánh hai model trước khi viết bất kỳ dòng code nào. Dùng nó để kiểm tra nhanh hành vi model và cảm nhận độ trễ với những prompt cụ thể của bạn.

VS Code. GitHub Models có thể truy cập trong VS Code qua extension AI Toolkit — cần cài riêng, không phải từ GitHub Copilot. AI Toolkit hiển thị GitHub Models cùng với Azure AI Foundry và local model trong Chat view. Đây không phải Copilot Chat; hai sản phẩm này có hạ tầng riêng, billing riêng, và catalog model riêng.

Latency

GitHub không công bố SLA hay benchmark nào cho endpoint GitHub Models API. Cũng không có benchmark từ bên thứ ba nào đo riêng lớp inference của GitHub Models — các trang benchmark lớn chỉ test model tại API gốc của nhà cung cấp.

Điều có thể suy ra: inference gói miễn phí chạy trên hàng đợi Azure AI dùng chung. Các tier trả phí và enterprise chạy trên Azure AI deployment riêng, về lý thuyết sẽ giảm độ biến động khi có nhiều request đồng thời — nhưng đó vẫn chỉ là suy đoán, không phải đo đạc. Dùng màn hình latency theo từng request của playground để xác định kỳ vọng thực tế với các prompt và model cụ thể của bạn trước khi thiết kế kiến trúc phụ thuộc vào latency cụ thể.

GitHub Models so với HuggingFace Inference Providers

So sánh phổ biến nhất cho “API LLM miễn phí” là HuggingFace. Bức tranh thay đổi vào năm 2025 khi HuggingFace đổi tên Inference API thành Inference Providers, định tuyến các LLM frontier lớn qua các đối tác bên thứ ba (Groq, Together AI, SambaNova). So sánh hiện tại trông như sau:

Tiêu chí	GitHub Models (miễn phí)	HuggingFace (miễn phí)
Mô hình tính phí	RPM / RPD cố định theo tier	Ngân sách credit (~$0.10/tháng)
Low-tier calls/ngày	150 đảm bảo	Không áp dụng — tính theo credit
High-tier calls/ngày	50 đảm bảo	~8 lần gọi frontier model/tháng (ước tính từ $0.10 credit theo giá đối tác)
Truy cập model frontier	Có — trong giới hạn tốc độ	Có — credit bị trừ theo giá đối tác
Dùng cho production	Bị cấm rõ ràng ở gói miễn phí	Không cấm rõ; giới hạn $0.10/tháng làm nó không thực tế
Xác thực	GitHub PAT (models:read)	HuggingFace user access token

$0.10/tháng của HuggingFace nghe có vẻ linh hoạt nhưng cạn rất nhanh khi bạn gọi frontier model qua các đối tác trả phí. Nếu use case của bạn là model CPU-class — phân loại BERT-scale, embeddings, model open-source nhỏ hơn — HuggingFace native provider có lựa chọn phong phú hơn và có thể phù hợp hơn. Riêng với LLM, GitHub Models cho ngân sách ngày dự đoán được hơn với chi phí bằng không. Khi bạn scale vượt ngưỡng miễn phí và cần tối ưu chi phí, bài LLM cost routing của chúng tôi phân tích khi nào nên dùng model rẻ thay model đắt.

Đánh giá

Dùng GitHub Models nếu: Bạn là developer đơn lẻ hoặc nhóm nhỏ đang prototype tính năng dùng LLM, muốn truy cập API không cần thẻ tín dụng và không rào cản, và 150 lần gọi model nhỏ (hoặc 50 lần gọi frontier model) mỗi ngày đủ cho khối lượng validation của bạn. Endpoint tương thích OpenAI có nghĩa là tích hợp vào code hiện có chỉ mất vài phút, và chuyển về nhà cung cấp trực tiếp sau này chỉ cần thay hai dòng.

Dùng API trả phí nếu: Bạn có traffic production, cần nhiều hơn 50 lần gọi frontier model mỗi ngày, quan tâm đến SLA về latency, hoặc cần tính năng GitHub Models không có — fine-tuning, embeddings (ngoài những gì catalog hỗ trợ), hoặc uptime đảm bảo. Khi đó, hãy đánh giá OpenAI API và Anthropic API trực tiếp. Mức pay-as-you-go của GitHub khớp giá trực tiếp với GPT-4o, nhưng đi thẳng sẽ bỏ được một lớp proxy billing và bạn được cập nhật phiên bản model mới nhanh hơn.

Lưu ý quan trọng

GitHub Models vẫn đang ở public preview tính đến tháng 6 năm 2026. Giới hạn tốc độ, tình trạng model, và giá cả đều có thể thay đổi mà không báo trước — endpoint Azure cũ bị deprecated với thông báo ngắn là một ví dụ điển hình.

Điều khoản dịch vụ của gói miễn phí hạn chế rõ ràng chỉ dùng cho prototyping và thử nghiệm. Phục vụ người dùng trên gói miễn phí vi phạm ToS.

Danh mục model thay đổi liên tục. Catalog đã mở rộng đều đặn kể từ khi ra mắt vào tháng 8 năm 2024; model có mặt hôm nay có thể bị gỡ hoặc thay thế.

Xem thêm AI Coding CLI tốt nhất 2026 nếu bạn đang đánh giá toàn cảnh các AI developer tool ngoài việc truy cập API.

GitHub Models 2026 — API LLM miễn phí cho developer