OpenClaw с локальными моделями: Ollama, LM Studio, llama.cpp

Запускаем OpenClaw полностью офлайн. Бесплатно, приватно, без отправки данных в облако.

8 февраля 2026 г.

OpenClaw с локальными моделями

Примечание: OpenClaw ранее назывался MoltBot и Clawdbot. Все команды взаимозаменяемы (openclaw, moltbot, clawdbot). Не хочешь платить за API? Беспокоишься о приватности? Запусти OpenClaw полностью локально.

Зачем локальные модели

✅ Бесплатно — никаких API-ключей и счетов
✅ Приватно — данные не покидают твой компьютер
✅ Офлайн — работает без интернета
✅ Без лимитов — никаких rate limits

Минусы

⚠️ Требуется мощное железо (GPU желательно)
⚠️ Качество ниже чем у Claude/GPT-4
⚠️ Медленнее на CPU

Вариант 1: Ollama (рекомендуется)

Самый простой способ запустить локальные модели.

Установка Ollama

macOS / Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows: Скачай установщик с ollama.com

Скачиваем модель

# Llama 3.1 8B — хороший баланс качества и скорости
ollama pull llama3.1:8b

# Или более мощная (требует 16GB+ RAM)
ollama pull llama3.1:70b

# Для coding задач
ollama pull codellama:13b

# Компактная для слабого железа
ollama pull phi3:mini

Проверяем

ollama run llama3.1:8b "Привет! Как дела?"

Настройка OpenClaw

# ~/.openclaw/openclaw.yaml
agent:
  model: "ollama/llama3.1:8b"
  
  # Ollama endpoint (по умолчанию localhost)
  providers:
    ollama:
      baseUrl: "http://127.0.0.1:11434"

Запускаем

# В одном терминале - Ollama
ollama serve

# В другом - OpenClaw
openclaw gateway

Вариант 2: LM Studio

GUI-приложение для запуска моделей. Удобно для экспериментов.

Установка

Скачай с lmstudio.ai
Установи
Скачай модель из встроенного каталога

Запуск сервера

Открой LM Studio
Перейди в Local Server
Выбери модель
Нажми Start Server

По умолчанию сервер на http://localhost:1234

Настройка OpenClaw

agent:
  model: "openai/local-model"
  
  providers:
    openai:
      baseUrl: "http://127.0.0.1:1234/v1"
      apiKey: "not-needed"

LM Studio эмулирует OpenAI API, поэтому используем провайдер openai.

Вариант 3: llama.cpp (продвинутый)

Максимальная производительность и контроль.

Установка

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j

# С поддержкой CUDA (NVIDIA GPU)
make LLAMA_CUDA=1 -j

# С поддержкой Metal (Apple Silicon)
make LLAMA_METAL=1 -j

Скачиваем модель

# Скачай GGUF модель с Hugging Face
# Например: https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF

wget https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF/resolve/main/llama-2-13b-chat.Q4_K_M.gguf

Запускаем сервер

./server -m llama-2-13b-chat.Q4_K_M.gguf \
  --host 127.0.0.1 \
  --port 8080 \
  -c 4096 \
  -ngl 35  # Слои на GPU

Настройка OpenClaw

agent:
  model: "openai/llama-2-13b"
  
  providers:
    openai:
      baseUrl: "http://127.0.0.1:8080/v1"
      apiKey: "not-needed"

Выбор модели

По железу

RAM	GPU VRAM	Рекомендация
8GB	-	phi3:mini, gemma:2b
16GB	-	llama3.1:8b (медленно)
16GB	8GB	llama3.1:8b
32GB	16GB+	llama3.1:70b-q4
64GB+	24GB+	llama3.1:70b

По задачам

Задача	Модель
Общение, помощь	llama3.1:8b
Программирование	codellama:13b, deepseek-coder
Русский язык	saiga (на базе llama)
Reasoning	qwen2.5:14b

Оптимизация производительности

Квантизация

Меньше точность = меньше RAM = быстрее:

# Q4_K_M — хороший баланс
# Q8_0 — максимальное качество
# Q2_K — минимум RAM, худшее качество

GPU Offloading

Перенос слоёв на GPU ускоряет в 5-10x:

# llama.cpp
./server -ngl 35  # 35 слоёв на GPU

# Ollama (автоматически если есть GPU)

Context Length

Меньше контекст = быстрее:

agent:
  maxTokens: 2048  # Вместо 4096

Гибридный режим

Используй локальную модель для простых задач, облачную для сложных:

agent:
  model: "ollama/llama3.1:8b"
  
  # Fallback на Claude для сложных задач
  routing:
    complexTasks:
      model: "anthropic/claude-sonnet-4"
      triggers:
        - "напиши код"
        - "проанализируй"
        - "research"

Troubleshooting

”CUDA out of memory”

Модель не помещается в GPU:

# Уменьши количество слоёв на GPU
ollama run llama3.1:8b --num-gpu 20

# Или используй квантизованную версию
ollama pull llama3.1:8b-q4

Очень медленно на CPU

Используй меньшую модель (phi3:mini)
Включи GPU offloading
Уменьши context length

Модель отвечает на английском

Добавь system prompt:

agent:
  systemPrompt: |
    Ты AI-ассистент. Всегда отвечай на русском языке.

Итог

Локальные модели — отличный вариант для:

Экспериментов без оплаты
Приватных данных
Офлайн-использования

Для продакшена рекомендую гибридный подход: локальная модель + fallback на Claude/GPT для сложных задач.