OpenClaw с локальными моделями: Ollama, LM Studio, llama.cpp

OpenClaw с локальными моделями: Ollama, LM Studio, llama.cpp

Запускаем OpenClaw полностью офлайн. Бесплатно, приватно, без отправки данных в облако.

OpenClaw с локальными моделями

Примечание: OpenClaw ранее назывался MoltBot и Clawdbot. Все команды взаимозаменяемы (openclaw, moltbot, clawdbot). Не хочешь платить за API? Беспокоишься о приватности? Запусти OpenClaw полностью локально.

Зачем локальные модели

  • Бесплатно — никаких API-ключей и счетов
  • Приватно — данные не покидают твой компьютер
  • Офлайн — работает без интернета
  • Без лимитов — никаких rate limits

Минусы

  • ⚠️ Требуется мощное железо (GPU желательно)
  • ⚠️ Качество ниже чем у Claude/GPT-4
  • ⚠️ Медленнее на CPU

Вариант 1: Ollama (рекомендуется)

Самый простой способ запустить локальные модели.

Установка Ollama

macOS / Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows: Скачай установщик с ollama.com

Скачиваем модель

# Llama 3.1 8B — хороший баланс качества и скорости
ollama pull llama3.1:8b

# Или более мощная (требует 16GB+ RAM)
ollama pull llama3.1:70b

# Для coding задач
ollama pull codellama:13b

# Компактная для слабого железа
ollama pull phi3:mini

Проверяем

ollama run llama3.1:8b "Привет! Как дела?"

Настройка OpenClaw

# ~/.openclaw/openclaw.yaml
agent:
  model: "ollama/llama3.1:8b"
  
  # Ollama endpoint (по умолчанию localhost)
  providers:
    ollama:
      baseUrl: "http://127.0.0.1:11434"

Запускаем

# В одном терминале - Ollama
ollama serve

# В другом - OpenClaw
openclaw gateway

Вариант 2: LM Studio

GUI-приложение для запуска моделей. Удобно для экспериментов.

Установка

  1. Скачай с lmstudio.ai
  2. Установи
  3. Скачай модель из встроенного каталога

Запуск сервера

  1. Открой LM Studio
  2. Перейди в Local Server
  3. Выбери модель
  4. Нажми Start Server

По умолчанию сервер на http://localhost:1234

Настройка OpenClaw

agent:
  model: "openai/local-model"
  
  providers:
    openai:
      baseUrl: "http://127.0.0.1:1234/v1"
      apiKey: "not-needed"

LM Studio эмулирует OpenAI API, поэтому используем провайдер openai.


Вариант 3: llama.cpp (продвинутый)

Максимальная производительность и контроль.

Установка

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j

# С поддержкой CUDA (NVIDIA GPU)
make LLAMA_CUDA=1 -j

# С поддержкой Metal (Apple Silicon)
make LLAMA_METAL=1 -j

Скачиваем модель

# Скачай GGUF модель с Hugging Face
# Например: https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF

wget https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF/resolve/main/llama-2-13b-chat.Q4_K_M.gguf

Запускаем сервер

./server -m llama-2-13b-chat.Q4_K_M.gguf \
  --host 127.0.0.1 \
  --port 8080 \
  -c 4096 \
  -ngl 35  # Слои на GPU

Настройка OpenClaw

agent:
  model: "openai/llama-2-13b"
  
  providers:
    openai:
      baseUrl: "http://127.0.0.1:8080/v1"
      apiKey: "not-needed"

Выбор модели

По железу

RAMGPU VRAMРекомендация
8GB-phi3:mini, gemma:2b
16GB-llama3.1:8b (медленно)
16GB8GBllama3.1:8b
32GB16GB+llama3.1:70b-q4
64GB+24GB+llama3.1:70b

По задачам

ЗадачаМодель
Общение, помощьllama3.1:8b
Программированиеcodellama:13b, deepseek-coder
Русский языкsaiga (на базе llama)
Reasoningqwen2.5:14b

Оптимизация производительности

Квантизация

Меньше точность = меньше RAM = быстрее:

# Q4_K_M — хороший баланс
# Q8_0 — максимальное качество
# Q2_K — минимум RAM, худшее качество

GPU Offloading

Перенос слоёв на GPU ускоряет в 5-10x:

# llama.cpp
./server -ngl 35  # 35 слоёв на GPU

# Ollama (автоматически если есть GPU)

Context Length

Меньше контекст = быстрее:

agent:
  maxTokens: 2048  # Вместо 4096

Гибридный режим

Используй локальную модель для простых задач, облачную для сложных:

agent:
  model: "ollama/llama3.1:8b"
  
  # Fallback на Claude для сложных задач
  routing:
    complexTasks:
      model: "anthropic/claude-sonnet-4"
      triggers:
        - "напиши код"
        - "проанализируй"
        - "research"

Troubleshooting

”CUDA out of memory”

Модель не помещается в GPU:

# Уменьши количество слоёв на GPU
ollama run llama3.1:8b --num-gpu 20

# Или используй квантизованную версию
ollama pull llama3.1:8b-q4

Очень медленно на CPU

  • Используй меньшую модель (phi3:mini)
  • Включи GPU offloading
  • Уменьши context length

Модель отвечает на английском

Добавь system prompt:

agent:
  systemPrompt: |
    Ты AI-ассистент. Всегда отвечай на русском языке.

Итог

Локальные модели — отличный вариант для:

  • Экспериментов без оплаты
  • Приватных данных
  • Офлайн-использования

Для продакшена рекомендую гибридный подход: локальная модель + fallback на Claude/GPT для сложных задач.