Оглавление
Введение в установку DeepSeek локально
Установите Ollama — платформу для управления языковыми моделями — чтобы запустить DeepSeek-R1 локально без постоянного подключения к интернету. Это обеспечит полный контроль над данными и высокую скорость отклика для запросов. Поддерживаются версии модели от 1.5B до 70B параметров (и даже больше для квантованных версий) в зависимости от мощности вашего устройства.
Скачайте установочный файл с официального сайта Ollama для вашей ОС (Windows 10 версии 22H2 или новее, macOS 11 Big Sur или новее, Ubuntu 18.04+ или CentOS 7+). Для macOS альтернативно можно использовать Homebrew, но версии там могут обновляться с задержкой.
# Для Ubuntu/Debian
curl -fsSL https://ollama.com/install.sh | sh
# Для macOS через Homebrew (альтернативный вариант)
brew install ollama
После установки проверьте, что служба Ollama запущена — процесс должен работать в фоновом режиме без вывода в терминал. Это нормально, модель активируется только при первом запросе.
Критерий успеха: Команда ollama --version
возвращает номер версии без ошибок. Пример ответа:
ollama version 0.1.20
Переходите к следующему шагу — загрузке конкретной версии DeepSeek-R1 (например, 8B или 14B параметров) в зависимости от доступных ресурсов вашего устройства.
Системные требования и подготовка
Перед загрузкой модели DeepSeek-R1 проверьте соответствие системы минимальным требованиям. Это предотвратит сбои при работе с большими файлами моделей.
Проверка аппаратных ресурсов
Запустите проверку оперативной памяти и видеокарты. Для CPU-версий рекомендуется минимум 8GB RAM для моделей 3B, 16GB для моделей 7B и 32GB для моделей 13B. Для GPU-режима с CUDA потребуется 16GB+ RAM и совместимая видеокарта NVIDIA с достаточным объемом VRAM (например, 6-8GB VRAM для 7B моделей, 24GB VRAM для больших моделей).
# Проверка оперативной памяти (Linux)
free -h
# Проверка GPU (NVIDIA)
nvidia-smi
# Проверка поддержки AVX2 на CPU (обязательно для всех версий)
lscpu | grep avx2
Критерий успеха: В выводе free -h
доступно достаточно RAM для выбранной модели (например, минимум 16GB для 7B моделей), nvidia-smi
показывает версию драйвера и информацию о GPU (если есть GPU), а lscpu
включает строку avx2
. Для слабых систем выбирайте модели 1.5B-3B параметров — они могут работать на CPU или интегрированной графике, но производительность будет значительно ниже.
Подготовка дискового пространства
Модели DeepSeek-R1 занимают от 1.1GB (1.5B) до 43GB (70B), а квантованные версии могут достигать 404GB (671B). Освободите минимум 12GB для установки Ollama и базовых моделей, а также дополнительное место для хранения данных моделей (например, 50GB+ для нескольких моделей или 200GB+ для очень больших моделей).
# Проверка свободного места (Linux)
df -h /home
# Альтернативно для Windows в PowerShell
Get-PSDrive C | Select-Object Used, Free
Критерий успеха: В выводе df -h
в колонке «Available» указано достаточно места для выбранных моделей (например, более 50GB). Если места мало — очистите кэш браузера или временные файлы, либо укажите другой диск для хранения моделей в настройках Ollama.
Установка базовых зависимостей
Убедитесь, что установлены CUDA Toolkit (для GPU-режима) и обновленные драйверы NVIDIA. Для CPU-режима достаточно свежей версии Ollama.
# Для Ubuntu/Debian с GPU
sudo apt install nvidia-cuda-toolkit
# Проверка версии CUDA
nvcc --version
Критерий успеха: Команда nvcc --version
возвращает версию CUDA 11.0+ (если используете GPU), либо Ollama автоматически использует CPU-режим без ошибок. Процесс установки CUDA Toolkit может занять 5-15 минут в зависимости от скорости интернета.
Переходите к выбору конкретной модели DeepSeek-R1 — учитывайте проверенные ресурсы системы при выборе между 1.5B, 8B, 14B или более крупными параметрами.
Установка Ollama
Ollama — это платформа для управления языковыми моделями, которая позволяет запускать DeepSeek-R1 локально без постоянного подключения к интернету. Установите ее в зависимости от вашей операционной системы.
Установка на Windows
Перейдите на официальный сайт Ollama и скачайте установочный файл для Windows. Запустите его — установка займет менее минуты.
Что делать: Откройте браузер, перейдите по адресу https://ollama.com/download, скачайте файл OllamaSetup.exe
. Запустите скачанный файл — установка произойдет автоматически.
Зачем: EXE-установщик самостоятельно добавляет Ollama в систему PATH и создает службу для фоновой работы.
Как проверить: После установки откройте командную строку (Win+R, введите cmd
) и выполните:
ollama --version
Критерий успеха: Команда возвращает номер версии (например, 0.1.20
) без ошибок.
Возможные ошибки: Если команда не распознается, перезагрузите компьютер — установщик мог не обновить переменные среды. Альтернативно запустите Ollama через ярлык в меню «Пуск».
Установка на macOS
Используйте официальный скрипт установки через терминал — это надежнее всего. Homebrew тоже работает, но версии там могут обновляться с задержкой в 1-2 дня.
Что делать: Откройте Terminal и выполните команду:
curl -fsSL https://ollama.com/install.sh | sh
Зачем: Скрипт автоматически установит последнюю версию, добавит Ollama в PATH и запустит фоновую службу.
Как проверить: После завершения выполнения команды введите:
ollama --version
Критерий успеха: Терминал показывает версию Ollama (например, 0.1.20
или новее).
Альтернативный вариант: Если предпочитаете графическую установку, скачайте .dmg
файл с https://ollama.com/download и переместите Ollama в папку Applications. Но через скрипт обычно быстрее — не нужно перетаскивать файлы вручную.
Установка на Linux
Для Linux используйте официальный скрипт установки. Поддерживаются Ubuntu, Debian, CentOS и большинство дистрибутивов на базе systemd.
Что делать: Откройте терминал и выполните:
curl -fsSL https://ollama.com/install.sh | sh
Зачем: Скрипт автоматически настраивает репозиторий, устанавливает пакет и запускает службу Ollama в фоне.
Как проверить: После установки проверьте версию:
ollama --version
Критерий успеха: Команда возвращает номер версии без ошибок (например, 0.1.20
).
Возможные ошибки: Если возникают проблемы с правами доступа, запустите скрипт с sudo:
curl -fsSL https://ollama.com/install.sh | sudo sh
Проверьте, что служба запущена:
systemctl status ollama
Должен быть статус active (running)
. Если нет — запустите вручную:
sudo systemctl start ollama
Важно: Процесс установки тихий — терминал может не показывать прогресс. Это нормально, просто дождитесь завершения.
После успешной установки Ollama переходите к следующему шагу — загрузке конкретной модели DeepSeek-R1. Проверьте доступные ресурсы системы (память, место на диске), чтобы выбрать подходящий размер модели.
Загрузка модели DeepSeek-R1
Выберите подходящую версию модели DeepSeek-R1 в зависимости от проверенных ресурсов системы. Доступны варианты от 1.5B до 671B параметров — чем больше модель, тем лучше качество ответов, но выше требования к памяти. Модели DeepSeek-R1 доступны в библиотеке Ollama.
Выбор размера модели
Сравните доступные версии и выберите подходящую для вашего оборудования. Для слабых систем начинайте с 1.5B, для мощных рабочих станций можно брать 32B или 70B.
- deepseek-r1:1.5b — 4GB RAM, ~1.1GB на диске (для ноутбуков и слабых ПК)
- deepseek-r1:7b — 8GB RAM, ~4.7GB на диске (баланс скорости и качества)
- deepseek-r1:14b — 16GB RAM, ~9.0GB на диске (рекомендуется для большинства задач)
- deepseek-r1:32b — 32GB RAM, ~20GB на диске (для профессионального использования)
- deepseek-r1:70b — 64GB RAM, ~43GB на диске (только для серверных конфигураций)
Совет: Если сомневаетесь — начинайте с 7B версии. Она хорошо работает на большинстве современных компьютеров и дает качественные ответы.
Команда загрузки
Запустите загрузку выбранной модели через Ollama. Процесс автоматически скачает нужные файлы и подготовит их к работе.
Выполните в терминале команду с нужным размером модели:
ollama pull deepseek-r1:7b
Зачем: Эта команда скачивает выбранную версию модели из официального репозитория Ollama и распаковывает ее в локальное хранилище.
Готовый пример для разных версий:
# Для слабых систем
ollama pull deepseek-r1:1.5b
# Для стандартного использования
ollama pull deepseek-r1:7b
# Для мощных компьютеров
ollama pull deepseek-r1:14b
Мониторинг процесса
Следите за прогрессом загрузки в терминале. Ollama покажет индикатор выполнения и приблизительное время до завершения.
Как проверить: Во время загрузки терминал отображает прогресс-бар и проценты выполнения. Процесс может занять от 10 минут до нескольких часов в зависимости от скорости интернета и размера модели.
Ожидаемое время загрузки:
- 100 Мбит/с: 1.5B (~5 мин), 7B (~15 мин), 14B (~25 мин)
- 50 Мбит/с: 1.5B (~10 мин), 7B (~30 мин), 14B (~50 мин)
- 10 Мбит/с: 1.5B (~50 мин), 7B (~2.5 часа), 14B (~4 часа)
Критерий успеха: После завершения загрузки появится сообщение «Success» и модель будет готова к использованию. Проверьте список установленных моделей командой:
ollama list
В выводе должна появиться строка с выбранной версией DeepSeek-R1.
Возможные ошибки: Если загрузка прервалась из-за проблем с интернетом — просто запустите команду ollama pull
снова. Ollama докачает недостающие части автоматически.
Переходите к следующему шагу — запуску модели и первому тестовому запросу для проверки работоспособности.
Запуск и тестирование модели
Запустите сервер Ollama для активации локальной модели. Сервер работает на порту 11434 по умолчанию — это нужно для обработки запросов.
Откройте терминал и выполните:
ollama serve
Процесс запустится в фоновом режиме — терминал покажет сообщение «Listening on [::]:11434» и перестанет выводить логи. Это нормально, сервер готов к работе. Не закрывайте терминал — это остановит сервер.
Как проверить: Откройте новый терминал (не закрывая первый) и выполните:
curl http://localhost:11434/api/tags
Критерий успеха: Команда вернет JSON с списком моделей, включая установленную deepseek-r1. Пример ответа:
{"models":[{"name":"deepseek-r1:7b","modified_at":"2023-11-10T11:30:00.123456Z"}]}
Интерактивное тестирование
Протестируйте модель через командную строку — это самый быстрый способ проверить, что всё работает корректно.
В новом терминале запустите интерактивный режим:
ollama run deepseek-r1:7b
Подождите 10-30 секунд — модель загрузится в память. Появится приглашение >>>
— значит, можно отправлять запросы.
Готовые примеры тестовых запросов:
- «Привет! Как дела?»
- «Объясни квантовую физику просто»
- «Напиши код на Python для сортировки списка»
Вводите запросы прямо в терминал и нажимайте Enter. Первый ответ может занять 15-40 секунд — модель инициализируется. Последующие запросы обрабатываются быстрее (3-10 секунд).
Проверка ответов
Оцените качество ответов модели — они должны быть осмысленными и соответствовать запросу.
Критерий успеха: Модель дает связные ответы на русском языке. Например, на запрос «Напиши код на Python для сортировки» должен вернуть рабочий фрагмент кода с пояснениями.
Типичные признаки корректной работы:
- Ответы содержат полные предложения
- Код форматируется с отступами
- Нет бессмысленных символов или повторов
Если ответы некорректные (случайные символы, ошибки памяти):
- Проверьте свободную оперативную память: должно быть ≥8GB для 7B модели
- Перезапустите сервер: закройте терминал с
ollama serve
и запустите снова
Остановка сервера: Вернитесь в терминал, где работает ollama serve
, и нажмите Ctrl+C. Сервер остановится через 2-3 секунды. Для интерактивного режима — просто закройте терминал или введите /bye
.
Переходите к интеграции модели с вашими приложениями через API — сервер уже готов принимать запросы по адресу http://localhost:11434. Дополнительную информацию о командах Ollama можно найти в официальной документации Ollama CLI.
Настройка веб-интерфейса (OpenWebUI)
Установите OpenWebUI для удобной работы с моделью через браузер. Интерфейс автоматически подключится к локальному серверу Ollama и предоставит графический чат с историей сообщений.
Установка OpenWebUI
Откройте терминал и выполните установку через pip. Требуется Python 3.11 для обеспечения совместимости.
pip install open-webui
Зачем: Пакет добавит команду open-webui
в систему и установит все зависимости для веб-интерфейса. Процесс займет 2-5 минут в зависимости от скорости интернета.
Как проверить: После установки выполните:
open-webui --version
Критерий успеха: Команда вернет номер версии OpenWebUI без ошибок (например, 0.1.5
).
Возможные ошибки: Если команда не найдена, добавьте путь Python в PATH или перезапустите терминал. На некоторых системах может потребоваться pip3
вместо pip
.
Запуск веб-сервера
Запустите сервер OpenWebUI на стандартном порту 8080. Сервер будет работать в фоновом режиме — можно закрыть терминал, но тогда остановится и интерфейс.
open-webui serve --host 0.0.0.0 --port 8080
Зачем: Флаг --host 0.0.0.0
разрешает подключения с других устройств в сети, --port 8080
устанавливает порт по умолчанию.
Как проверить: Откройте браузер и перейдите по адресу http://localhost:8080. Должна загрузиться страница с полем ввода и кнопкой отправки сообщения.
Критерий успеха: В браузера отображается интерфейс чата с заголовком «OpenWebUI» и подключением к модели.
Альтернативный запуск: Если порт 8080 занят, укажите другой порт через --port 8081
. Для постоянной работы можно создать systemd-сервис (Linux) — тогда интерфейс будет доступен после перезагрузки. Более подробную информацию об установке и запуске Open WebUI можно найти в официальной документации Open WebUI.
Настройка модели
В веб-интерфейсе выберите установленную модель DeepSeek-R1. Настройка занимает 30 секунд — модель сразу готова к диалогу.
- Откройте http://localhost:8080 в браузере
- Нажмите на иконку настроек (шестеренка в правом углу)
- Перейдите в раздел «Model»
- Выберите
deepseek-r1:7b
из выпадающего списка - Нажмите «Save»
Зачем: Это связывает веб-интерфейс с вашей локальной моделью — все запросы будут отправляться на сервер Ollama.
Как проверить: Отправьте тестовое сообщение «Привет» — модель должна ответить через 5-15 секунд. Ответ появится в основном окне чата.
Критерий успеха: Модель дает осмысленные ответы на русском языке с форматированием текста. Внизу страницы отображается статус «Connected» и название модели.
Если модель не отвечает: Проверьте, что сервер Ollama запущен (ollama serve
). Перезагрузите страницу — иногда нужно обновить соединение.
Интерфейс готов к работе — можно отправлять запросы через браузер. История диалогов сохраняется автоматически между сессиями.
Проверка работоспособности
Выполните полную проверку установленных компонентов через API, логи и тест производительности. Это гарантирует, что модель работает корректно и готова к использованию.
Проверка API
Отправьте запрос к API Ollama для проверки доступности модели и генерации ответов. Используйте curl для быстрой проверки без дополнительных инструментов. Официальная документация Ollama API доступна для более подробной информации.
curl http://localhost:11434/api/tags
Зачем: Команда покажет список всех установленных моделей — убедитесь, что deepseek-r1
присутствует в системе.
Как проверить: В выводе должен быть JSON с названием вашей модели. Пример корректного ответа:
{"models":[{"name":"deepseek-r1:7b","modified_at":"2023-11-10T11:30:00.123456Z"}]}
Критерий успеха: В списке моделей есть строка с deepseek-r1
— значит, модель загружена и готова к работе.
Теперь проверьте генерацию ответов — это основной функционал модели:
curl -X POST http://localhost:11434/api/generate -d '{"model": "deepseek-r1:7b", "prompt": "Привет", "stream": false}'
Зачем: Тестирует возможность модели обрабатывать запросы и возвращать осмысленные ответы.
Как проверить: Ответ должен содержать поле "response"
с текстом на русском языке. Первый запрос может занять 10-20 секунд — модель загружается в память.
Критерий успеха: Возвращается JSON с полным ответом модели без ошибок. Пример:
{"model":"deepseek-r1:7b","response":"Привет! Как дела?","done":true}
Если API не отвечает: Проверьте, что сервер Ollama запущен (ollama serve
). Перезапустите сервер — иногда помогает после обновлений.
Анализ логов
Проверьте логи Ollama для диагностики проблем с загрузкой модели или обработкой запросов.
Откройте файл логов командой:
tail -f ~/.ollama/logs/server.log
Примечание: Расположение логов может отличаться в зависимости от операционной системы и способа установки Ollama.
- macOS и Linux (пользовательская установка):
~/.ollama/logs/server.log
- Linux (установка через systemd): Используйте
journalctl -u ollama -f
- Windows:
%LOCALAPPDATA%Ollamalogsserver.log
Зачем: Логи показывают детальную информацию о работе сервера — ошибки загрузки, проблемы с памятью или прерванные запросы.
Как проверить: После отправки тестового запроса в логах должны появиться строки с generating response
и response completed
. Ищите сообщения об ошибках — они начинаются с ERROR
или WARN
.
Критерий успеха: В логах нет сообщений об ошибках, только информационные записи о обработке запросов. Типичный вывод для рабочей системы:
INFO[2023-11-10T11:30:00Z] generating response for model=deepseek-r1:7b
INFO[2023-11-10T11:30:05Z] response completed duration=5.2s
Если логи пустые: Убедитесь, что сервер запущен и обрабатывает запросы. Перезапустите Ollama — логи начинают писаться только при активной работе.
Тест производительности
Измерьте время ответа модели для оценки производительности системы. Оптимальное время — менее 500 мс для 7B модели на GPU.
Отправьте тестовый запрос с замером времени:
time curl -X POST http://localhost:11434/api/generate -d '{"model": "deepseek-r1:7b", "prompt": "Тест производительности", "stream": false}' > /dev/null
Зачем: Команда time
покажет общее время выполнения запроса — от отправки до получения полного ответа.
Как проверить: Обратите внимание на значение real
в выводе — это фактическое время обработки запроса.
Критерий успеха: Для 7B модели время ответа должно быть менее 2 секунд на CPU и менее 500 мс на GPU. Повторные запросы выполняются быстрее — модель уже загружена в память.
Типичные результаты:
- GPU (NVIDIA): 0.3-0.8s
- CPU (modern): 1.5-3.0s
- CPU (old): 5.0-10.0s
Если время превышает норму: Проверьте загрузку CPU/GPU в отдельном терминале. Для GPU: nvidia-smi
(для NVIDIA GPU), для CPU: htop
. Закройте ресурсоемкие приложения — браузер с множеством вкладок может замедлять ответ модели.
Все компоненты работают корректно — модель готова к использованию через API или веб-интерфейс. Переходите к интеграции с вашими приложениями или повседневному использованию через чат.
FAQ — Частые вопросы и решения
Ответы на наиболее распространенные проблемы при установке и использовании DeepSeek-R1 локально. Все решения проверены на практике и работают в большинстве случаев.
Модель не загружается или прерывается скачивание
--verbose
для подробного вывода процесса загрузки — это поможет определить на каком этапе возникает проблема. Просто запустите команду снова — Ollama докачает недостающие части. Проверьте стабильность интернет-соединения — для больших моделей нужен устойчивый канал.Нехватка RAM или VRAM при запуске модели
Медленные ответы или низкая скорость генерации
Как обновить модель до новой версии
Веб-интерфейс не доступен или выдает ошибки подключения
OLLAMA_HOST
. Подробнее см. в FAQ Ollama.
Оставить комментарий