· ollama / lm-studio / llm

Ollama vs LM Studio — chạy LLM cục bộ trên Mac 2026

LM Studio thắng về throughput và bộ nhớ. Ollama thắng về time-to-first-token và cài đặt CLI. Đây là khi nào nên chọn cái nào trên Apple Silicon.

Bởi

1.670 từ · 9 phút đọc

Nếu bạn muốn chạy LLM ngay trên Mac mới trong vòng hai phút: brew install ollama. Nếu bạn chạy các phiên inference dài và quan tâm đến throughput cũng như dung lượng RAM: LM Studio. Cả hai đều có API tương thích OpenAI trên localhost và chạy tốt trên Apple Silicon. Khoảng cách thu hẹp với model nhỏ và nới rộng với model lớn — trên model 30B với RAM hạn chế, hiệu quả sử dụng bộ nhớ của LM Studio có thể là yếu tố quyết định bạn chạy được model hay không.

Dành cho ai

Developer Mac dùng Apple Silicon (M1 trở lên) muốn chạy LLM cục bộ để phát triển, làm prototype, hay hỗ trợ viết code. Bài so sánh này hướng đến dev TypeScript/full-stack đã nghe nói về Ollama nhưng chưa quyết định có dùng không. Không dành cho nhà nghiên cứu ML, không dành cho Windows hay Linux — những nền tảng đó có công cụ và đánh đổi khác hẳn. Nếu bạn đang cân nhắc thêm các AI coding tool có thể dùng inference từ xa thay vì tự host, xem xếp hạng AI coding CLI tốt nhất 2026 của chúng tôi.

Những gì chúng tôi đã thử nghiệm

  • Ollama v0.24.0 (phát hành 2026-05-14) — release notes
  • LM Studio 0.4.13 với mlx-engine v1.8.1 (phát hành 2026-05-13) — changelog
  • macOS 14 Sonoma (yêu cầu bởi Ollama; yêu cầu cho MLX backend của LM Studio)
  • Model: Qwen3-Coder-30B trên Mac Mini M4 Pro 64GB và Llama 3.1 8B Q4 trên M3 Pro MacBook 18GB

Nguồn benchmark: asiai.devinsiderllm.com.

Cài đặt

Ollama

brew install ollama

Hoặc không dùng Homebrew:

curl -fsSL https://ollama.com/install.sh | sh

Ollama chạy như một launchd service trên Mac — tự khởi động khi đăng nhập, không cần bật server thủ công. Sau khi cài xong:

ollama list      # trống cho đến khi bạn pull model

LM Studio

Tải file .dmg từ lmstudio.ai hoặc cài qua script:

curl -fsSL https://lmstudio.ai/install.sh | bash

LM Studio là ứng dụng GUI. Nó không chạy ngầm cho đến khi bạn bật local server trong app — thêm một thao tác mỗi phiên nếu bạn muốn API luôn sẵn sàng.

Yêu cầu macOS: Ollama cần macOS 14 Sonoma trở lên. LM Studio chạy được trên macOS 13.4+, nhưng MLX backend — thứ mang lại hiệu năng Apple Silicon — cần macOS 14.0+.

So sánh nhanh quá trình cài đặt

OllamaLM Studio
Lệnh cài đặtbrew install ollama.dmg hoặc curl
Pull modelollama pull <model>GUI browser hoặc HuggingFace URL
Bật serverTự động (launchd)Thủ công mỗi phiên
Truy cập CLIĐầy đủ — ollama run, ollama list, ollama psHạn chế

Inference đầu tiên

Ollama

ollama pull llama3.1:8b
ollama run llama3.1:8b "Explain async/await in two sentences"

Model tự tải về, load lên và phản hồi ngay tại đó. Không cần bước bật server riêng.

LM Studio

  1. Mở LM Studio, vào Discover, tìm llama-3.1-8b, tải bản MLX
  2. Chuyển sang Chat, load model — hoặc bật Local Server từ sidebar

Lưu ý về định dạng MLX: MLX backend hiệu năng cao của LM Studio dùng định dạng model khác với file GGUF mà Ollama tải về. Trên HuggingFace, đây là hai repo khác nhau — tìm repo có tiền tố mlx-community/. Tải nhầm bản GGUF là bạn đang chạy không có MLX acceleration, vốn là điểm mấu chốt của LM Studio.

Benchmark

Mac Mini M4 Pro 64GB — Qwen3-Coder-30B

Nguồn: asiai.dev

Chỉ sốLM Studio (MLX)Ollama (llama.cpp)
Throughput102.2 tok/s69.8 tok/s
Time to first token291 ms175 ms
Bộ nhớ tiến trình21.4 GB41.6 GB

LM Studio sinh token nhanh hơn 46% và dùng ít RAM hơn 49%. Ollama trả về token đầu tiên nhanh hơn 40%.

M3 Pro MacBook 18GB — Llama 3.1 8B Q4

Nguồn: insiderllm.com

Chỉ sốLM Studio (MLX)Ollama (llama.cpp)
Tốc độ sinh token~35 tok/s~28 tok/s
Xử lý prompt~900 tok/s~180 tok/s

Khoảng cách về tốc độ xử lý prompt mới là thứ bạn cảm nhận rõ trong thực tế. LM Studio nhanh hơn khoảng 5× khi gửi ngữ cảnh dài — một file lớn, lịch sử hội thoại dài, đoạn code của một codebase lớn. Sự khác biệt này hiện ra mỗi lần bạn dán file vào chat.

Khi nào time-to-first-token nhanh của Ollama có giá trị: trao đổi qua lại tương tác, câu hỏi ngắn tức thì. Khi nào throughput của LM Studio có giá trị: sinh văn bản dài, code completion trên context window lớn.

Hướng dẫn về RAM

Ước tính cho quantization Q4_K_M, dựa trên benchmark Qwen3-Coder-30B ở trên (41.6 GB với Ollama vs 21.4 GB với LM Studio MLX theo asiai.dev). LM Studio MLX dùng khoảng một nửa RAM cho cùng một model.

ModelRAM ước tính với OllamaRAM Mac tối thiểu
7B Q4_K_M4–6 GB8 GB
13B Q4_K_M8–10 GB16 GB
30B Q4_K_M18–22 GB32 GB

Mac 8 GB: ngưỡng thực tế là model 7B ở Q4. Đừng thử 13B — một phần sẽ tràn sang CPU và tốc độ sinh xuống mức không dùng được. LM Studio tiêu tốn ít RAM hơn, tạo thêm không gian: trên máy 8 GB, LM Studio có thể chạy được model 7B trong khi Ollama đã phải dùng swap.

API — endpoint tương thích OpenAI

Cả hai công cụ đều có REST API tương thích OpenAI. Chỉ cần thay base URL là dùng được ngay trong code hiện có.

Ollama — port 11434

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "http://localhost:11434/v1",
  apiKey: "ollama", // required by the client library, not validated server-side
});

const response = await client.chat.completions.create({
  model: "llama3.1:8b",
  messages: [{ role: "user", content: "Write a TypeScript async utility" }],
});

console.log(response.choices[0].message.content);

Tài liệu API đầy đủ: docs.ollama.com/api/openai-compatibility

LM Studio — port 1234

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "http://localhost:1234/v1",
  apiKey: "lm-studio", // required by the client library, not validated server-side
});

const response = await client.chat.completions.create({
  model: "lmstudio-community/llama-3.1-8b-instruct-mlx",
  messages: [{ role: "user", content: "Write a TypeScript async utility" }],
});

console.log(response.choices[0].message.content);

Server của LM Studio phải được bật từ GUI trước khi các lệnh gọi này hoạt động. API của Ollama luôn sẵn sàng ngay khi launchd service đang chạy.

Quản lý model

Ollama

ollama list                    # hiển thị các model đã tải
ollama pull llama3.1:8b        # tải model
ollama rm llama3.1:8b          # xóa model
ollama ps                      # xem model nào đang load trong bộ nhớ

Model lưu tại ~/.ollama/models. Thư viện model tại ollama.com/library bao gồm hầu hết các model open-source phổ biến, phân theo kích thước: llama3.1:8b, llama3.1:70b, codellama:13b.

MLX backend của Ollama ra mắt vào tháng 3 năm 2026 — bài blog Ollama — và vẫn đang trong giai đoạn hoàn thiện. Đừng kỳ vọng độ ổn định ngang llama.cpp backend trong các trường hợp ngoại lệ.

LM Studio

Model được tải qua GUI hoặc trực tiếp từ HuggingFace. Chúng nằm ở ~/Library/Application Support/LMStudio/models/. Không có CLI để quản lý model — nếu muốn tải tự động bằng script, bạn phải dùng thêm HuggingFace CLI. MLX backend của LM Studio đã hoàn thiện hơn một năm, và điều đó thể hiện rõ qua độ ổn định và khả năng xử lý các trường hợp ngoại lệ.

Chọn gì khi nào

Nếu bạn…Chọn
Muốn đi từ số không đến inference đầu tiên nhanh nhấtOllamabrew install ollama && ollama pull llama3.1:8b
Cần API luôn chạy mà không cần mở GUIOllama — launchd lo phần đó
Quan tâm đến throughput khi output dàiLM Studio — sinh token nhanh hơn 46% trên model lớn
Có 8 GB RAM và cần từng GBLM Studio — chiếm khoảng một nửa bộ nhớ
Muốn duyệt và thử nghiệm model bằng giao diện trực quanLM Studio — UI khám phá model là điểm mạnh nhất
Cần quản lý model qua CLI cho script hoặc CIOllama — CLI đầy đủ, không phụ thuộc GUI
Chạy model 30B sát ngưỡng RAMLM Studio — tiết kiệm 49% bộ nhớ có thể là yếu tố quyết định
Muốn token đầu tiên xuất hiện nhanh nhất trong chatOllama — 175ms vs 291ms trên Qwen3-Coder-30B

Giới hạn của bài so sánh

Bài so sánh này chỉ dành cho macOS trên Apple Silicon. Kết quả trên Windows và Linux sẽ khác — bản Windows của Ollama vẫn đang bắt kịp, và MLX backend của LM Studio chỉ dành cho Apple. Không tool nào được thử nghiệm với vision model. Các định dạng quantization ngoài Q4_K_M chưa được benchmark. Cả hai công cụ đều đang phát triển nhanh — các con số này là từ tháng 5 năm 2026.

Nếu bạn muốn hỗ trợ LLM trong editor mà không tốn RAM để chạy model cục bộ, Cursor xử lý remote inference như một phần tích hợp AI sẵn có — xem đánh giá Cursor 2026 của chúng tôi để biết khi nào nó thực sự xứng đáng.

Tài liệu tham khảo