Ollama vs LM Studio — chạy LLM cục bộ trên Mac 2026

Nếu bạn muốn chạy LLM ngay trên Mac mới trong vòng hai phút: brew install ollama. Nếu bạn chạy các phiên inference dài và quan tâm đến throughput cũng như dung lượng RAM: LM Studio. Cả hai đều có API tương thích OpenAI trên localhost và chạy tốt trên Apple Silicon. Khoảng cách thu hẹp với model nhỏ và nới rộng với model lớn — trên model 30B với RAM hạn chế, hiệu quả sử dụng bộ nhớ của LM Studio có thể là yếu tố quyết định bạn chạy được model hay không.

Dành cho ai

Developer Mac dùng Apple Silicon (M1 trở lên) muốn chạy LLM cục bộ để phát triển, làm prototype, hay hỗ trợ viết code. Bài so sánh này hướng đến dev TypeScript/full-stack đã nghe nói về Ollama nhưng chưa quyết định có dùng không. Không dành cho nhà nghiên cứu ML, không dành cho Windows hay Linux — những nền tảng đó có công cụ và đánh đổi khác hẳn. Nếu bạn đang cân nhắc thêm các AI coding tool có thể dùng inference từ xa thay vì tự host, xem xếp hạng AI coding CLI tốt nhất 2026 của chúng tôi.

Những gì chúng tôi đã thử nghiệm

Ollama v0.24.0 (phát hành 2026-05-14) — release notes
LM Studio 0.4.13 với mlx-engine v1.8.1 (phát hành 2026-05-13) — changelog
macOS 14 Sonoma (yêu cầu bởi Ollama; yêu cầu cho MLX backend của LM Studio)
Model: Qwen3-Coder-30B trên Mac Mini M4 Pro 64GB và Llama 3.1 8B Q4 trên M3 Pro MacBook 18GB

Nguồn benchmark: asiai.dev và insiderllm.com.

Cài đặt

Ollama

brew install ollama

Hoặc không dùng Homebrew:

curl -fsSL https://ollama.com/install.sh | sh

Ollama chạy như một launchd service trên Mac — tự khởi động khi đăng nhập, không cần bật server thủ công. Sau khi cài xong:

ollama list      # trống cho đến khi bạn pull model

LM Studio

Tải file .dmg từ lmstudio.ai hoặc cài qua script:

curl -fsSL https://lmstudio.ai/install.sh | bash

LM Studio là ứng dụng GUI. Nó không chạy ngầm cho đến khi bạn bật local server trong app — thêm một thao tác mỗi phiên nếu bạn muốn API luôn sẵn sàng.

Yêu cầu macOS: Ollama cần macOS 14 Sonoma trở lên. LM Studio chạy được trên macOS 13.4+, nhưng MLX backend — thứ mang lại hiệu năng Apple Silicon — cần macOS 14.0+.

So sánh nhanh quá trình cài đặt

	Ollama	LM Studio
Lệnh cài đặt	`brew install ollama`	`.dmg` hoặc curl
Pull model	`ollama pull <model>`	GUI browser hoặc HuggingFace URL
Bật server	Tự động (launchd)	Thủ công mỗi phiên
Truy cập CLI	Đầy đủ — `ollama run`, `ollama list`, `ollama ps`	Hạn chế

Inference đầu tiên

Ollama

ollama pull llama3.1:8b
ollama run llama3.1:8b "Explain async/await in two sentences"

Model tự tải về, load lên và phản hồi ngay tại đó. Không cần bước bật server riêng.

LM Studio

Mở LM Studio, vào Discover, tìm llama-3.1-8b, tải bản MLX
Chuyển sang Chat, load model — hoặc bật Local Server từ sidebar

Lưu ý về định dạng MLX: MLX backend hiệu năng cao của LM Studio dùng định dạng model khác với file GGUF mà Ollama tải về. Trên HuggingFace, đây là hai repo khác nhau — tìm repo có tiền tố mlx-community/. Tải nhầm bản GGUF là bạn đang chạy không có MLX acceleration, vốn là điểm mấu chốt của LM Studio.

Benchmark

Mac Mini M4 Pro 64GB — Qwen3-Coder-30B

Nguồn: asiai.dev

Chỉ số	LM Studio (MLX)	Ollama (llama.cpp)
Throughput	102.2 tok/s	69.8 tok/s
Time to first token	291 ms	175 ms
Bộ nhớ tiến trình	21.4 GB	41.6 GB

LM Studio sinh token nhanh hơn 46% và dùng ít RAM hơn 49%. Ollama trả về token đầu tiên nhanh hơn 40%.

M3 Pro MacBook 18GB — Llama 3.1 8B Q4

Nguồn: insiderllm.com

Chỉ số	LM Studio (MLX)	Ollama (llama.cpp)
Tốc độ sinh token	~35 tok/s	~28 tok/s
Xử lý prompt	~900 tok/s	~180 tok/s

Khoảng cách về tốc độ xử lý prompt mới là thứ bạn cảm nhận rõ trong thực tế. LM Studio nhanh hơn khoảng 5× khi gửi ngữ cảnh dài — một file lớn, lịch sử hội thoại dài, đoạn code của một codebase lớn. Sự khác biệt này hiện ra mỗi lần bạn dán file vào chat.

Khi nào time-to-first-token nhanh của Ollama có giá trị: trao đổi qua lại tương tác, câu hỏi ngắn tức thì. Khi nào throughput của LM Studio có giá trị: sinh văn bản dài, code completion trên context window lớn.

Hướng dẫn về RAM

Ước tính cho quantization Q4_K_M, dựa trên benchmark Qwen3-Coder-30B ở trên (41.6 GB với Ollama vs 21.4 GB với LM Studio MLX theo asiai.dev). LM Studio MLX dùng khoảng một nửa RAM cho cùng một model.

Model	RAM ước tính với Ollama	RAM Mac tối thiểu
7B Q4_K_M	4–6 GB	8 GB
13B Q4_K_M	8–10 GB	16 GB
30B Q4_K_M	18–22 GB	32 GB

Mac 8 GB: ngưỡng thực tế là model 7B ở Q4. Đừng thử 13B — một phần sẽ tràn sang CPU và tốc độ sinh xuống mức không dùng được. LM Studio tiêu tốn ít RAM hơn, tạo thêm không gian: trên máy 8 GB, LM Studio có thể chạy được model 7B trong khi Ollama đã phải dùng swap.

API — endpoint tương thích OpenAI

Cả hai công cụ đều có REST API tương thích OpenAI. Chỉ cần thay base URL là dùng được ngay trong code hiện có.

Ollama — port 11434

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "http://localhost:11434/v1",
  apiKey: "ollama", // required by the client library, not validated server-side
});

const response = await client.chat.completions.create({
  model: "llama3.1:8b",
  messages: [{ role: "user", content: "Write a TypeScript async utility" }],
});

console.log(response.choices[0].message.content);

Tài liệu API đầy đủ: docs.ollama.com/api/openai-compatibility

LM Studio — port 1234

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "http://localhost:1234/v1",
  apiKey: "lm-studio", // required by the client library, not validated server-side
});

const response = await client.chat.completions.create({
  model: "lmstudio-community/llama-3.1-8b-instruct-mlx",
  messages: [{ role: "user", content: "Write a TypeScript async utility" }],
});

console.log(response.choices[0].message.content);

Server của LM Studio phải được bật từ GUI trước khi các lệnh gọi này hoạt động. API của Ollama luôn sẵn sàng ngay khi launchd service đang chạy.

Quản lý model

Ollama

ollama list                    # hiển thị các model đã tải
ollama pull llama3.1:8b        # tải model
ollama rm llama3.1:8b          # xóa model
ollama ps                      # xem model nào đang load trong bộ nhớ

Model lưu tại ~/.ollama/models. Thư viện model tại ollama.com/library bao gồm hầu hết các model open-source phổ biến, phân theo kích thước: llama3.1:8b, llama3.1:70b, codellama:13b.

MLX backend của Ollama ra mắt vào tháng 3 năm 2026 — bài blog Ollama — và vẫn đang trong giai đoạn hoàn thiện. Đừng kỳ vọng độ ổn định ngang llama.cpp backend trong các trường hợp ngoại lệ.

LM Studio

Model được tải qua GUI hoặc trực tiếp từ HuggingFace. Chúng nằm ở ~/Library/Application Support/LMStudio/models/. Không có CLI để quản lý model — nếu muốn tải tự động bằng script, bạn phải dùng thêm HuggingFace CLI. MLX backend của LM Studio đã hoàn thiện hơn một năm, và điều đó thể hiện rõ qua độ ổn định và khả năng xử lý các trường hợp ngoại lệ.

Chọn gì khi nào

Nếu bạn…	Chọn
Muốn đi từ số không đến inference đầu tiên nhanh nhất	Ollama — `brew install ollama && ollama pull llama3.1:8b`
Cần API luôn chạy mà không cần mở GUI	Ollama — launchd lo phần đó
Quan tâm đến throughput khi output dài	LM Studio — sinh token nhanh hơn 46% trên model lớn
Có 8 GB RAM và cần từng GB	LM Studio — chiếm khoảng một nửa bộ nhớ
Muốn duyệt và thử nghiệm model bằng giao diện trực quan	LM Studio — UI khám phá model là điểm mạnh nhất
Cần quản lý model qua CLI cho script hoặc CI	Ollama — CLI đầy đủ, không phụ thuộc GUI
Chạy model 30B sát ngưỡng RAM	LM Studio — tiết kiệm 49% bộ nhớ có thể là yếu tố quyết định
Muốn token đầu tiên xuất hiện nhanh nhất trong chat	Ollama — 175ms vs 291ms trên Qwen3-Coder-30B

Giới hạn của bài so sánh

Bài so sánh này chỉ dành cho macOS trên Apple Silicon. Kết quả trên Windows và Linux sẽ khác — bản Windows của Ollama vẫn đang bắt kịp, và MLX backend của LM Studio chỉ dành cho Apple. Không tool nào được thử nghiệm với vision model. Các định dạng quantization ngoài Q4_K_M chưa được benchmark. Cả hai công cụ đều đang phát triển nhanh — các con số này là từ tháng 5 năm 2026.

Nếu bạn muốn hỗ trợ LLM trong editor mà không tốn RAM để chạy model cục bộ, Cursor xử lý remote inference như một phần tích hợp AI sẵn có — xem đánh giá Cursor 2026 của chúng tôi để biết khi nào nó thực sự xứng đáng.

Dành cho ai

Những gì chúng tôi đã thử nghiệm

Cài đặt

Ollama

LM Studio

So sánh nhanh quá trình cài đặt

Inference đầu tiên

Ollama

LM Studio

Benchmark

Mac Mini M4 Pro 64GB — Qwen3-Coder-30B

M3 Pro MacBook 18GB — Llama 3.1 8B Q4

Hướng dẫn về RAM

API — endpoint tương thích OpenAI

Ollama — port 11434

LM Studio — port 1234

Quản lý model

Ollama

LM Studio

Chọn gì khi nào

Giới hạn của bài so sánh

Tài liệu tham khảo