OpenClaw с локальными моделями: Ollama, LM Studio, llama.cpp
Запускаем OpenClaw полностью офлайн. Бесплатно, приватно, без отправки данных в облако.
OpenClaw с локальными моделями
Примечание: OpenClaw ранее назывался MoltBot и Clawdbot. Все команды взаимозаменяемы (
openclaw,moltbot,clawdbot). Не хочешь платить за API? Беспокоишься о приватности? Запусти OpenClaw полностью локально.
Зачем локальные модели
- ✅ Бесплатно — никаких API-ключей и счетов
- ✅ Приватно — данные не покидают твой компьютер
- ✅ Офлайн — работает без интернета
- ✅ Без лимитов — никаких rate limits
Минусы
- ⚠️ Требуется мощное железо (GPU желательно)
- ⚠️ Качество ниже чем у Claude/GPT-4
- ⚠️ Медленнее на CPU
Вариант 1: Ollama (рекомендуется)
Самый простой способ запустить локальные модели.
Установка Ollama
macOS / Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows: Скачай установщик с ollama.com
Скачиваем модель
# Llama 3.1 8B — хороший баланс качества и скорости
ollama pull llama3.1:8b
# Или более мощная (требует 16GB+ RAM)
ollama pull llama3.1:70b
# Для coding задач
ollama pull codellama:13b
# Компактная для слабого железа
ollama pull phi3:mini
Проверяем
ollama run llama3.1:8b "Привет! Как дела?"
Настройка OpenClaw
# ~/.openclaw/openclaw.yaml
agent:
model: "ollama/llama3.1:8b"
# Ollama endpoint (по умолчанию localhost)
providers:
ollama:
baseUrl: "http://127.0.0.1:11434"
Запускаем
# В одном терминале - Ollama
ollama serve
# В другом - OpenClaw
openclaw gateway
Вариант 2: LM Studio
GUI-приложение для запуска моделей. Удобно для экспериментов.
Установка
- Скачай с lmstudio.ai
- Установи
- Скачай модель из встроенного каталога
Запуск сервера
- Открой LM Studio
- Перейди в Local Server
- Выбери модель
- Нажми Start Server
По умолчанию сервер на http://localhost:1234
Настройка OpenClaw
agent:
model: "openai/local-model"
providers:
openai:
baseUrl: "http://127.0.0.1:1234/v1"
apiKey: "not-needed"
LM Studio эмулирует OpenAI API, поэтому используем провайдер openai.
Вариант 3: llama.cpp (продвинутый)
Максимальная производительность и контроль.
Установка
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j
# С поддержкой CUDA (NVIDIA GPU)
make LLAMA_CUDA=1 -j
# С поддержкой Metal (Apple Silicon)
make LLAMA_METAL=1 -j
Скачиваем модель
# Скачай GGUF модель с Hugging Face
# Например: https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF
wget https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF/resolve/main/llama-2-13b-chat.Q4_K_M.gguf
Запускаем сервер
./server -m llama-2-13b-chat.Q4_K_M.gguf \
--host 127.0.0.1 \
--port 8080 \
-c 4096 \
-ngl 35 # Слои на GPU
Настройка OpenClaw
agent:
model: "openai/llama-2-13b"
providers:
openai:
baseUrl: "http://127.0.0.1:8080/v1"
apiKey: "not-needed"
Выбор модели
По железу
| RAM | GPU VRAM | Рекомендация |
|---|---|---|
| 8GB | - | phi3:mini, gemma:2b |
| 16GB | - | llama3.1:8b (медленно) |
| 16GB | 8GB | llama3.1:8b |
| 32GB | 16GB+ | llama3.1:70b-q4 |
| 64GB+ | 24GB+ | llama3.1:70b |
По задачам
| Задача | Модель |
|---|---|
| Общение, помощь | llama3.1:8b |
| Программирование | codellama:13b, deepseek-coder |
| Русский язык | saiga (на базе llama) |
| Reasoning | qwen2.5:14b |
Оптимизация производительности
Квантизация
Меньше точность = меньше RAM = быстрее:
# Q4_K_M — хороший баланс
# Q8_0 — максимальное качество
# Q2_K — минимум RAM, худшее качество
GPU Offloading
Перенос слоёв на GPU ускоряет в 5-10x:
# llama.cpp
./server -ngl 35 # 35 слоёв на GPU
# Ollama (автоматически если есть GPU)
Context Length
Меньше контекст = быстрее:
agent:
maxTokens: 2048 # Вместо 4096
Гибридный режим
Используй локальную модель для простых задач, облачную для сложных:
agent:
model: "ollama/llama3.1:8b"
# Fallback на Claude для сложных задач
routing:
complexTasks:
model: "anthropic/claude-sonnet-4"
triggers:
- "напиши код"
- "проанализируй"
- "research"
Troubleshooting
”CUDA out of memory”
Модель не помещается в GPU:
# Уменьши количество слоёв на GPU
ollama run llama3.1:8b --num-gpu 20
# Или используй квантизованную версию
ollama pull llama3.1:8b-q4
Очень медленно на CPU
- Используй меньшую модель (phi3:mini)
- Включи GPU offloading
- Уменьши context length
Модель отвечает на английском
Добавь system prompt:
agent:
systemPrompt: |
Ты AI-ассистент. Всегда отвечай на русском языке.
Итог
Локальные модели — отличный вариант для:
- Экспериментов без оплаты
- Приватных данных
- Офлайн-использования
Для продакшена рекомендую гибридный подход: локальная модель + fallback на Claude/GPT для сложных задач.