Оглавление
Новый фреймворк Cactus позволяет запускать языковые и мультимодальные модели прямо на мобильных устройствах, включая бюджетные смартфоны. Разработчики создали систему с нуля на C++, оптимизированную для мобильных ограничений по энергопотреблению и производительности.
Ключевые преимущества он-девайс ИИ
Локальное выполнение моделей обеспечивает несколько критически важных преимуществ:
- Задержка менее 100 мс — почти мгновенный отклик
- Полная конфиденциальность — данные не покидают устройство
- Работа без интернет-соединения
- Значительная экономия на API-вызовах

Техническая архитектура
Cactus представляет собой полноценный стек для мобильного ИИ:
- Cactus Kernels — низкоуровневые вычислительные процедуры для CPU и NPU
- Cactus Graph — эффективное представление нейросетевых графов
- Cactus Engine — рантайм для выполнения моделей на устройстве
Система поддерживает кроссплатформенные SDK для Flutter, Kotlin и React Native, позволяя разработчикам создавать сложные рабочие процессы с инструментальными вызовами и RAG.
Производительность
На тестах с моделью Qwen3-600m-int8 на CPU:
- 16-20 токенов/сек на устройствах типа Pixel 6a или iPhone 11
- 70+ токенов/сек на последних iPhone 17 и Galaxy S25 Ultra
- Время до первого токена — от 50 мс
То, что раньше было прерогативой флагманов, теперь доступно на устройствах среднего класса. Cactus демонстрирует, что оптимизация кода может быть эффективнее, чем простое наращивание аппаратных мощностей. Особенно впечатляет поддержка старых устройств — это настоящий демократизатор мобильного ИИ, который может изменить правила игры в регионах с преобладанием бюджетных смартфонов.
Доступность и применение
Проект с открытым исходным кодом доступен на GitHub и бесплатен для персонального использования, хобби-проектов и малого бизнеса. Демо-приложение Cactus Chat можно установить из App Store и Google Play.
Система уже обрабатывает более 500,000 инференс-задач еженедельно в production-средах. Хотя Cactus ориентирован на мобильные устройства, разработчики рекомендуют использовать проверенные инструменты вроде Ollama, llama.cpp, vLLM и MLX для десктопов и серверов.
По сообщению Hugging Face, проект представляет собой значительный шаг в демократизации мобильного искусственного интеллекта.
Оставить комментарий