Chủ đề: llm
3 bài
· llm / cost-optimization
LLM cost routing: khi nào Haiku thắng Opus và khi nào không
Chuyển 1M token phân loại từ Opus 4.7 sang Haiku 4.5 tiết kiệm $6.00 — giảm 80%. Đây là phân loại task, yếu tố latency, và các công cụ để triển khai.
· llm / fine-tuning
Cách fine-tune LLM nhỏ năm 2026 (LoRA trên laptop)
Fine-tune Llama 3.1 8B QLoRA trên GPU consumer — cài đặt ghim phiên bản, cấu hình training chính xác, xuất GGUF sang Ollama, và tám trường hợp lỗi.
· ollama / lm-studio
Ollama vs LM Studio — chạy LLM cục bộ trên Mac 2026
LM Studio thắng về throughput và bộ nhớ. Ollama thắng về time-to-first-token và cài đặt CLI. Đây là khi nào nên chọn cái nào trên Apple Silicon.