AI Automation

Локальный интеллект: Как запустить Qwen 3.5 на вашей видеокарте и подключить к Antigravity

Запуск Qwen 3.5 в Antigravity IDE

Внимание: В данной статье представлен полный разбор настройки локальной ИИ-инфраструктуры на базе моделей семейства Qwen и среды разработки Antigravity. Мы сохранили все технические детали и примеры конфигурации для максимально глубокого погружения.

Введение: Новая эра локальной разработки

В 2026 году граница между облачными и локальными вычислениями практически стерлась. Если раньше для запуска мощных языковых моделей требовались серверные кластеры, то сегодня видеокарта среднего сегмента, такая как NVIDIA RTX 5060 Ti 16GB, способна обеспечить интеллект уровня GPT-4 прямо у вас на столе.

В этом руководстве мы пройдем путь от «железа» до полностью интегрированной среды разработки. Мы настроим Ollama, развернем модели Qwen 3.5 и подключим их к Antigravity IDE через современный протокол MCP (Model Context Protocol).


🛠️ Архитектура системы: Что мы строим

Наша цель — создать бесшовную экосистему, где ИИ-ассистент имеет доступ к вашему коду, может «видеть» ваш экран и помогать в архитектурном планировании, сохраняя при этом 100% приватность.

Основные компоненты стека:

  1. Ollama (Backend): Движок для исполнения моделей.
  2. Qwen 3.5 9B / 35B MoE / 2.5-VL: Набор моделей для разных задач.
  3. Antigravity IDE: Среда разработки.
  4. MCP (Model Context Protocol): Мост между IDE и локальными инструментами.

💻 Выбор оборудования: Почему RTX 5060 Ti 16GB?

Для комфортной работы с современными моделями критически важен объем видеопамяти (VRAM). 16 ГБ — это «золотой стандарт», который позволяет:

  • Запускать Qwen 3.5 35B MoE (в квантовании Q4_K_M).
  • Держать в памяти одновременно легкую модель для кода (9B) и визуальную модель (VL).
  • Обеспечивать достаточный контекст (KV-cache) для обработки длинных файлов.

🚀 Шаг 1: Установка и настройка Ollama

Ollama стала стандартом де-факто для локального запуска LLM благодаря простоте и поддержке GPU ускорения.

1.1. Установка в Linux

Выполните официальный скрипт установки:

curl -fsSL https://ollama.com/install.sh | sh

1.2. Перенос моделей на внешний диск

Модели занимают много места (в нашем случае — около 51 ГБ). Чтобы не забивать системный SSD, перенесем их на /mnt/ai_storage.

  1. Создайте директорию:
    sudo mkdir -p /mnt/ai_storage/ollama_models
    sudo chown -R $USER:$USER /mnt/ai_storage/ollama_models
  2. Настройте переменную окружения через systemd:
    sudo systemctl edit ollama.service
    Добавьте в открывшееся окно:
    [Service]
    Environment="OLLAMA_MODELS=/mnt/ai_storage/ollama_models"
  3. Перезапустите сервис:
    sudo systemctl daemon-reload
    sudo systemctl restart ollama

📥 Шаг 2: Загрузка семейства моделей Qwen

Мы используем три модели для разных сценариев:

  1. qwen3.5:9b (Fast Code): Основная рабочая лошадка.
    ollama pull qwen3.5:9b
  2. qwen3.5:35b (Strong Intellect): Для архитектуры и сложной логики.
    ollama pull qwen3.5:35b
  3. qwen2.5vl:7b (Vision): Для анализа скриншотов и диаграмм.
    ollama pull qwen2.5vl:7b

🔗 Шаг 3: Интеграция с Antigravity IDE через MCP

Antigravity IDE поддерживает протокол MCP из коробки. Это позволяет ассистенту напрямую общаться с Ollama.

3.1. Установка MCP-сервера Ollama

Мы будем использовать ollama-mcp для предоставления инструментов IDE. Рекомендуется установить его в виртуальное окружение:

mkdir -p /mnt/ai_storage/antigravity_config
cd /mnt/ai_storage/antigravity_config
python3 -m venv venv_antigravity
source venv_antigravity/bin/activate
pip install ollama-mcp

3.2. Конфигурация в IDE

В настройках Antigravity IDE (Settings -> Customizations -> MCP Servers) добавьте новый сервер:

  • Command: /mnt/ai_storage/antigravity_config/venv_antigravity/bin/python
  • Arguments: -m ollama_mcp.server

После сохранения нажмите Refresh. Индикатор сервера должен стать зеленым.


🤔 Использование в чате IDE

Теперь вы можете обращаться к локальным моделям прямо из чата, используя символ @:

Пример запроса:

@ollama используя qwen3.5:35b помоги спроектировать схему базы данных для системы личных финансов.

Ассистент автоматически выберет нужную модель, передаст ей контекст вашего проекта и вернет результат.


📊 Результаты тестов производительности

Мы протестировали этот сетап на RTX 5060 Ti и получили впечатляющие результаты:

ЗадачаМодельСкорость / Результат
Кодогенерация (FastAPI CRUD)Qwen 3.5 9B3.2 сек
Анализ скриншота (OCR + UI)Qwen 2.5-VL 7BВысокая точность
Архитектурное планированиеQwen 3.5 35B MoE15-18 сек

Вывод: Скорость работы сопоставима с облачными API, но без задержек сети и оплаты за токены.


🔐 Почему локальный AI — это важно?

  1. Приватность: Ваш код не улетает на серверы OpenAI или Google.
  2. Экономия: Нулевая стоимость токенов после покупки GPU.
  3. Автономность: Работа превосходно продолжается даже без интернета (в самолете или на закрытом объекте).

🔧 Решение типичных проблем

  • OOM (Out of Memory): Если 35B не влезает, попробуйте квантование поменьше или закройте приложения, использующие GPU (например, браузер).
  • Медленная генерация: Проверьте nvidia-smi. Если загрузка CPU высока, значит Ollama перенесла часть слоев в RAM.
  • MCP не видит Ollama: Убедитесь, что Ollama запущена и доступна по адресу http://localhost:11434.

🏁 Заключение

Локальный AI сегодня — это не просто эксперимент. Это мощный инструмент, который повышает продуктивность разработчика на новый уровень. Комбинация Qwen 3.5 + Antigravity IDE дает вам интеллект фронтирных моделей с полным контролем над данными.

Готовы начать? Устанавливайте Ollama, качайте Qwen и добро пожаловать в будущее разработки!


📚 Полезные ресурсы