Chủ đề: llm

3 bài

· llm / cost-optimization

LLM cost routing: khi nào Haiku thắng Opus và khi nào không

Chuyển 1M token phân loại từ Opus 4.7 sang Haiku 4.5 tiết kiệm $6.00 — giảm 80%. Đây là phân loại task, yếu tố latency, và các công cụ để triển khai.

· llm / fine-tuning

Cách fine-tune LLM nhỏ năm 2026 (LoRA trên laptop)

Fine-tune Llama 3.1 8B QLoRA trên GPU consumer — cài đặt ghim phiên bản, cấu hình training chính xác, xuất GGUF sang Ollama, và tám trường hợp lỗi.

· ollama / lm-studio

Ollama vs LM Studio — chạy LLM cục bộ trên Mac 2026

LM Studio thắng về throughput và bộ nhớ. Ollama thắng về time-to-first-token và cài đặt CLI. Đây là khi nào nên chọn cái nào trên Apple Silicon.