Оглавление

Введение в установку DeepSeek локально

Установите Ollama — платформу для управления языковыми моделями — чтобы запустить DeepSeek-R1 локально без постоянного подключения к интернету. Это обеспечит полный контроль над данными и высокую скорость отклика для запросов. Поддерживаются версии модели от 1.5B до 70B параметров (и даже больше для квантованных версий) в зависимости от мощности вашего устройства.

Скачайте установочный файл с официального сайта Ollama для вашей ОС (Windows 10 версии 22H2 или новее, macOS 11 Big Sur или новее, Ubuntu 18.04+ или CentOS 7+). Для macOS альтернативно можно использовать Homebrew, но версии там могут обновляться с задержкой.

# Для Ubuntu/Debian
curl -fsSL https://ollama.com/install.sh | sh

# Для macOS через Homebrew (альтернативный вариант)
brew install ollama

После установки проверьте, что служба Ollama запущена — процесс должен работать в фоновом режиме без вывода в терминал. Это нормально, модель активируется только при первом запросе.

Критерий успеха: Команда ollama --version возвращает номер версии без ошибок. Пример ответа:

ollama version 0.1.20

Переходите к следующему шагу — загрузке конкретной версии DeepSeek-R1 (например, 8B или 14B параметров) в зависимости от доступных ресурсов вашего устройства.

Системные требования и подготовка

Перед загрузкой модели DeepSeek-R1 проверьте соответствие системы минимальным требованиям. Это предотвратит сбои при работе с большими файлами моделей.

Проверка аппаратных ресурсов

Запустите проверку оперативной памяти и видеокарты. Для CPU-версий рекомендуется минимум 8GB RAM для моделей 3B, 16GB для моделей 7B и 32GB для моделей 13B. Для GPU-режима с CUDA потребуется 16GB+ RAM и совместимая видеокарта NVIDIA с достаточным объемом VRAM (например, 6-8GB VRAM для 7B моделей, 24GB VRAM для больших моделей).

# Проверка оперативной памяти (Linux)
free -h

# Проверка GPU (NVIDIA)
nvidia-smi

# Проверка поддержки AVX2 на CPU (обязательно для всех версий)
lscpu | grep avx2

Критерий успеха: В выводе free -h доступно достаточно RAM для выбранной модели (например, минимум 16GB для 7B моделей), nvidia-smi показывает версию драйвера и информацию о GPU (если есть GPU), а lscpu включает строку avx2. Для слабых систем выбирайте модели 1.5B-3B параметров — они могут работать на CPU или интегрированной графике, но производительность будет значительно ниже.

Подготовка дискового пространства

Модели DeepSeek-R1 занимают от 1.1GB (1.5B) до 43GB (70B), а квантованные версии могут достигать 404GB (671B). Освободите минимум 12GB для установки Ollama и базовых моделей, а также дополнительное место для хранения данных моделей (например, 50GB+ для нескольких моделей или 200GB+ для очень больших моделей).

# Проверка свободного места (Linux)
df -h /home

# Альтернативно для Windows в PowerShell
Get-PSDrive C | Select-Object Used, Free

Критерий успеха: В выводе df -h в колонке «Available» указано достаточно места для выбранных моделей (например, более 50GB). Если места мало — очистите кэш браузера или временные файлы, либо укажите другой диск для хранения моделей в настройках Ollama.

Установка базовых зависимостей

Убедитесь, что установлены CUDA Toolkit (для GPU-режима) и обновленные драйверы NVIDIA. Для CPU-режима достаточно свежей версии Ollama.

# Для Ubuntu/Debian с GPU
sudo apt install nvidia-cuda-toolkit

# Проверка версии CUDA
nvcc --version

Критерий успеха: Команда nvcc --version возвращает версию CUDA 11.0+ (если используете GPU), либо Ollama автоматически использует CPU-режим без ошибок. Процесс установки CUDA Toolkit может занять 5-15 минут в зависимости от скорости интернета.

Переходите к выбору конкретной модели DeepSeek-R1 — учитывайте проверенные ресурсы системы при выборе между 1.5B, 8B, 14B или более крупными параметрами.

Установка Ollama

Ollama — это платформа для управления языковыми моделями, которая позволяет запускать DeepSeek-R1 локально без постоянного подключения к интернету. Установите ее в зависимости от вашей операционной системы.

Установка на Windows

Перейдите на официальный сайт Ollama и скачайте установочный файл для Windows. Запустите его — установка займет менее минуты.

Что делать: Откройте браузер, перейдите по адресу https://ollama.com/download, скачайте файл OllamaSetup.exe. Запустите скачанный файл — установка произойдет автоматически.

Зачем: EXE-установщик самостоятельно добавляет Ollama в систему PATH и создает службу для фоновой работы.

Как проверить: После установки откройте командную строку (Win+R, введите cmd) и выполните:

ollama --version

Критерий успеха: Команда возвращает номер версии (например, 0.1.20) без ошибок.

Возможные ошибки: Если команда не распознается, перезагрузите компьютер — установщик мог не обновить переменные среды. Альтернативно запустите Ollama через ярлык в меню «Пуск».

Установка на macOS

Используйте официальный скрипт установки через терминал — это надежнее всего. Homebrew тоже работает, но версии там могут обновляться с задержкой в 1-2 дня.

Что делать: Откройте Terminal и выполните команду:

curl -fsSL https://ollama.com/install.sh | sh

Зачем: Скрипт автоматически установит последнюю версию, добавит Ollama в PATH и запустит фоновую службу.

Как проверить: После завершения выполнения команды введите:

ollama --version

Критерий успеха: Терминал показывает версию Ollama (например, 0.1.20 или новее).

Альтернативный вариант: Если предпочитаете графическую установку, скачайте .dmg файл с https://ollama.com/download и переместите Ollama в папку Applications. Но через скрипт обычно быстрее — не нужно перетаскивать файлы вручную.

Установка на Linux

Для Linux используйте официальный скрипт установки. Поддерживаются Ubuntu, Debian, CentOS и большинство дистрибутивов на базе systemd.

Что делать: Откройте терминал и выполните:

curl -fsSL https://ollama.com/install.sh | sh

Зачем: Скрипт автоматически настраивает репозиторий, устанавливает пакет и запускает службу Ollama в фоне.

Как проверить: После установки проверьте версию:

ollama --version

Критерий успеха: Команда возвращает номер версии без ошибок (например, 0.1.20).

Возможные ошибки: Если возникают проблемы с правами доступа, запустите скрипт с sudo:

curl -fsSL https://ollama.com/install.sh | sudo sh

Проверьте, что служба запущена:

systemctl status ollama

Должен быть статус active (running). Если нет — запустите вручную:

sudo systemctl start ollama

Важно: Процесс установки тихий — терминал может не показывать прогресс. Это нормально, просто дождитесь завершения.

После успешной установки Ollama переходите к следующему шагу — загрузке конкретной модели DeepSeek-R1. Проверьте доступные ресурсы системы (память, место на диске), чтобы выбрать подходящий размер модели.

Загрузка модели DeepSeek-R1

Выберите подходящую версию модели DeepSeek-R1 в зависимости от проверенных ресурсов системы. Доступны варианты от 1.5B до 671B параметров — чем больше модель, тем лучше качество ответов, но выше требования к памяти. Модели DeepSeek-R1 доступны в библиотеке Ollama.

Выбор размера модели

Сравните доступные версии и выберите подходящую для вашего оборудования. Для слабых систем начинайте с 1.5B, для мощных рабочих станций можно брать 32B или 70B.

  • deepseek-r1:1.5b — 4GB RAM, ~1.1GB на диске (для ноутбуков и слабых ПК)
  • deepseek-r1:7b — 8GB RAM, ~4.7GB на диске (баланс скорости и качества)
  • deepseek-r1:14b — 16GB RAM, ~9.0GB на диске (рекомендуется для большинства задач)
  • deepseek-r1:32b — 32GB RAM, ~20GB на диске (для профессионального использования)
  • deepseek-r1:70b — 64GB RAM, ~43GB на диске (только для серверных конфигураций)

Совет: Если сомневаетесь — начинайте с 7B версии. Она хорошо работает на большинстве современных компьютеров и дает качественные ответы.

Команда загрузки

Запустите загрузку выбранной модели через Ollama. Процесс автоматически скачает нужные файлы и подготовит их к работе.

Выполните в терминале команду с нужным размером модели:

ollama pull deepseek-r1:7b

Зачем: Эта команда скачивает выбранную версию модели из официального репозитория Ollama и распаковывает ее в локальное хранилище.

Готовый пример для разных версий:

# Для слабых систем
ollama pull deepseek-r1:1.5b

# Для стандартного использования
ollama pull deepseek-r1:7b

# Для мощных компьютеров
ollama pull deepseek-r1:14b

Мониторинг процесса

Следите за прогрессом загрузки в терминале. Ollama покажет индикатор выполнения и приблизительное время до завершения.

Как проверить: Во время загрузки терминал отображает прогресс-бар и проценты выполнения. Процесс может занять от 10 минут до нескольких часов в зависимости от скорости интернета и размера модели.

Ожидаемое время загрузки:

  • 100 Мбит/с: 1.5B (~5 мин), 7B (~15 мин), 14B (~25 мин)
  • 50 Мбит/с: 1.5B (~10 мин), 7B (~30 мин), 14B (~50 мин)
  • 10 Мбит/с: 1.5B (~50 мин), 7B (~2.5 часа), 14B (~4 часа)

Критерий успеха: После завершения загрузки появится сообщение «Success» и модель будет готова к использованию. Проверьте список установленных моделей командой:

ollama list

В выводе должна появиться строка с выбранной версией DeepSeek-R1.

Возможные ошибки: Если загрузка прервалась из-за проблем с интернетом — просто запустите команду ollama pull снова. Ollama докачает недостающие части автоматически.

Переходите к следующему шагу — запуску модели и первому тестовому запросу для проверки работоспособности.

Запуск и тестирование модели

Запустите сервер Ollama для активации локальной модели. Сервер работает на порту 11434 по умолчанию — это нужно для обработки запросов.

Откройте терминал и выполните:

ollama serve

Процесс запустится в фоновом режиме — терминал покажет сообщение «Listening on [::]:11434» и перестанет выводить логи. Это нормально, сервер готов к работе. Не закрывайте терминал — это остановит сервер.

Как проверить: Откройте новый терминал (не закрывая первый) и выполните:

curl http://localhost:11434/api/tags

Критерий успеха: Команда вернет JSON с списком моделей, включая установленную deepseek-r1. Пример ответа:

{"models":[{"name":"deepseek-r1:7b","modified_at":"2023-11-10T11:30:00.123456Z"}]}

Интерактивное тестирование

Протестируйте модель через командную строку — это самый быстрый способ проверить, что всё работает корректно.

В новом терминале запустите интерактивный режим:

ollama run deepseek-r1:7b

Подождите 10-30 секунд — модель загрузится в память. Появится приглашение >>> — значит, можно отправлять запросы.

Готовые примеры тестовых запросов:

  • «Привет! Как дела?»
  • «Объясни квантовую физику просто»
  • «Напиши код на Python для сортировки списка»

Вводите запросы прямо в терминал и нажимайте Enter. Первый ответ может занять 15-40 секунд — модель инициализируется. Последующие запросы обрабатываются быстрее (3-10 секунд).

Проверка ответов

Оцените качество ответов модели — они должны быть осмысленными и соответствовать запросу.

Критерий успеха: Модель дает связные ответы на русском языке. Например, на запрос «Напиши код на Python для сортировки» должен вернуть рабочий фрагмент кода с пояснениями.

Типичные признаки корректной работы:

  • Ответы содержат полные предложения
  • Код форматируется с отступами
  • Нет бессмысленных символов или повторов

Если ответы некорректные (случайные символы, ошибки памяти):

  • Проверьте свободную оперативную память: должно быть ≥8GB для 7B модели
  • Перезапустите сервер: закройте терминал с ollama serve и запустите снова

Остановка сервера: Вернитесь в терминал, где работает ollama serve, и нажмите Ctrl+C. Сервер остановится через 2-3 секунды. Для интерактивного режима — просто закройте терминал или введите /bye.

Переходите к интеграции модели с вашими приложениями через API — сервер уже готов принимать запросы по адресу http://localhost:11434. Дополнительную информацию о командах Ollama можно найти в официальной документации Ollama CLI.

Настройка веб-интерфейса (OpenWebUI)

Установите OpenWebUI для удобной работы с моделью через браузер. Интерфейс автоматически подключится к локальному серверу Ollama и предоставит графический чат с историей сообщений.

Установка OpenWebUI

Откройте терминал и выполните установку через pip. Требуется Python 3.11 для обеспечения совместимости.

pip install open-webui

Зачем: Пакет добавит команду open-webui в систему и установит все зависимости для веб-интерфейса. Процесс займет 2-5 минут в зависимости от скорости интернета.

Как проверить: После установки выполните:

open-webui --version

Критерий успеха: Команда вернет номер версии OpenWebUI без ошибок (например, 0.1.5).

Возможные ошибки: Если команда не найдена, добавьте путь Python в PATH или перезапустите терминал. На некоторых системах может потребоваться pip3 вместо pip.

Запуск веб-сервера

Запустите сервер OpenWebUI на стандартном порту 8080. Сервер будет работать в фоновом режиме — можно закрыть терминал, но тогда остановится и интерфейс.

open-webui serve --host 0.0.0.0 --port 8080

Зачем: Флаг --host 0.0.0.0 разрешает подключения с других устройств в сети, --port 8080 устанавливает порт по умолчанию.

Как проверить: Откройте браузер и перейдите по адресу http://localhost:8080. Должна загрузиться страница с полем ввода и кнопкой отправки сообщения.

Критерий успеха: В браузера отображается интерфейс чата с заголовком «OpenWebUI» и подключением к модели.

Альтернативный запуск: Если порт 8080 занят, укажите другой порт через --port 8081. Для постоянной работы можно создать systemd-сервис (Linux) — тогда интерфейс будет доступен после перезагрузки. Более подробную информацию об установке и запуске Open WebUI можно найти в официальной документации Open WebUI.

Настройка модели

В веб-интерфейсе выберите установленную модель DeepSeek-R1. Настройка занимает 30 секунд — модель сразу готова к диалогу.

  1. Откройте http://localhost:8080 в браузере
  2. Нажмите на иконку настроек (шестеренка в правом углу)
  3. Перейдите в раздел «Model»
  4. Выберите deepseek-r1:7b из выпадающего списка
  5. Нажмите «Save»

Зачем: Это связывает веб-интерфейс с вашей локальной моделью — все запросы будут отправляться на сервер Ollama.

Как проверить: Отправьте тестовое сообщение «Привет» — модель должна ответить через 5-15 секунд. Ответ появится в основном окне чата.

Критерий успеха: Модель дает осмысленные ответы на русском языке с форматированием текста. Внизу страницы отображается статус «Connected» и название модели.

Если модель не отвечает: Проверьте, что сервер Ollama запущен (ollama serve). Перезагрузите страницу — иногда нужно обновить соединение.

Интерфейс готов к работе — можно отправлять запросы через браузер. История диалогов сохраняется автоматически между сессиями.

Проверка работоспособности

Выполните полную проверку установленных компонентов через API, логи и тест производительности. Это гарантирует, что модель работает корректно и готова к использованию.

Проверка API

Отправьте запрос к API Ollama для проверки доступности модели и генерации ответов. Используйте curl для быстрой проверки без дополнительных инструментов. Официальная документация Ollama API доступна для более подробной информации.

curl http://localhost:11434/api/tags

Зачем: Команда покажет список всех установленных моделей — убедитесь, что deepseek-r1 присутствует в системе.

Как проверить: В выводе должен быть JSON с названием вашей модели. Пример корректного ответа:

{"models":[{"name":"deepseek-r1:7b","modified_at":"2023-11-10T11:30:00.123456Z"}]}

Критерий успеха: В списке моделей есть строка с deepseek-r1 — значит, модель загружена и готова к работе.

Теперь проверьте генерацию ответов — это основной функционал модели:

curl -X POST http://localhost:11434/api/generate -d '{"model": "deepseek-r1:7b", "prompt": "Привет", "stream": false}'

Зачем: Тестирует возможность модели обрабатывать запросы и возвращать осмысленные ответы.

Как проверить: Ответ должен содержать поле "response" с текстом на русском языке. Первый запрос может занять 10-20 секунд — модель загружается в память.

Критерий успеха: Возвращается JSON с полным ответом модели без ошибок. Пример:

{"model":"deepseek-r1:7b","response":"Привет! Как дела?","done":true}

Если API не отвечает: Проверьте, что сервер Ollama запущен (ollama serve). Перезапустите сервер — иногда помогает после обновлений.

Анализ логов

Проверьте логи Ollama для диагностики проблем с загрузкой модели или обработкой запросов.

Откройте файл логов командой:

tail -f ~/.ollama/logs/server.log

Примечание: Расположение логов может отличаться в зависимости от операционной системы и способа установки Ollama.

  • macOS и Linux (пользовательская установка): ~/.ollama/logs/server.log
  • Linux (установка через systemd): Используйте journalctl -u ollama -f
  • Windows: %LOCALAPPDATA%Ollamalogsserver.log

Зачем: Логи показывают детальную информацию о работе сервера — ошибки загрузки, проблемы с памятью или прерванные запросы.

Как проверить: После отправки тестового запроса в логах должны появиться строки с generating response и response completed. Ищите сообщения об ошибках — они начинаются с ERROR или WARN.

Критерий успеха: В логах нет сообщений об ошибках, только информационные записи о обработке запросов. Типичный вывод для рабочей системы:

INFO[2023-11-10T11:30:00Z] generating response for model=deepseek-r1:7b
INFO[2023-11-10T11:30:05Z] response completed duration=5.2s

Если логи пустые: Убедитесь, что сервер запущен и обрабатывает запросы. Перезапустите Ollama — логи начинают писаться только при активной работе.

Тест производительности

Измерьте время ответа модели для оценки производительности системы. Оптимальное время — менее 500 мс для 7B модели на GPU.

Отправьте тестовый запрос с замером времени:

time curl -X POST http://localhost:11434/api/generate -d '{"model": "deepseek-r1:7b", "prompt": "Тест производительности", "stream": false}' > /dev/null

Зачем: Команда time покажет общее время выполнения запроса — от отправки до получения полного ответа.

Как проверить: Обратите внимание на значение real в выводе — это фактическое время обработки запроса.

Критерий успеха: Для 7B модели время ответа должно быть менее 2 секунд на CPU и менее 500 мс на GPU. Повторные запросы выполняются быстрее — модель уже загружена в память.

Типичные результаты:

  • GPU (NVIDIA): 0.3-0.8s
  • CPU (modern): 1.5-3.0s
  • CPU (old): 5.0-10.0s

Если время превышает норму: Проверьте загрузку CPU/GPU в отдельном терминале. Для GPU: nvidia-smi (для NVIDIA GPU), для CPU: htop. Закройте ресурсоемкие приложения — браузер с множеством вкладок может замедлять ответ модели.

Все компоненты работают корректно — модель готова к использованию через API или веб-интерфейс. Переходите к интеграции с вашими приложениями или повседневному использованию через чат.

FAQ — Частые вопросы и решения

Ответы на наиболее распространенные проблемы при установке и использовании DeepSeek-R1 локально. Все решения проверены на практике и работают в большинстве случаев.

Модель не загружается или прерывается скачивание
Используйте флаг --verbose для подробного вывода процесса загрузки — это поможет определить на каком этапе возникает проблема. Просто запустите команду снова — Ollama докачает недостающие части. Проверьте стабильность интернет-соединения — для больших моделей нужен устойчивый канал.
Нехватка RAM или VRAM при запуске модели
Уменьшите размер модели или добавьте файл подкачки. Для 7B версии требуется минимум 8GB RAM, для 14B — 16GB. Рекомендуется иметь больше оперативной памяти для лучшей производительности. Файл подкачки позволяет использовать диск как дополнительную память — это замедляет работу, но позволяет запустить модель когда физической RAM не хватает.
Медленные ответы или низкая скорость генерации
Проверьте использование GPU и загрузку процессора. Модель должна использовать видеокарту если она доступна. Убедитесь что установлены драйверы NVIDIA и CUDA Toolkit. Переустановите Ollama — иногда помогает после обновления драйверов.
Как обновить модель до новой версии
Просто выполните pull с тем же тегом — Ollama автоматически обновит модель если появилась новая версия. Обновление не затрагивает ваши локальные настройки и историю диалогов. Все промпты и конфигурации остаются нетронутыми.
Веб-интерфейс не доступен или выдает ошибки подключения
Проверьте что сервер Ollama запущен и слушает правильный порт. По умолчанию используется порт 11434. Firewall может блокировать подключения к порту 11434 или 8080. Для постоянного изменения порта настройте переменную окружения OLLAMA_HOST. Подробнее см. в FAQ Ollama.