Cactus запускает движок для локального ИИ на смартфонах

Cactus — новый фреймворк для локального выполнения ИИ-моделей на смартфонах с производительностью до 75 токенов/сек и поддержкой бюджетных устройств.

Оглавление

Ключевые преимущества он-девайс ИИ
Техническая архитектура
Производительность
Доступность и применение

Новый фреймворк Cactus позволяет запускать языковые и мультимодальные модели прямо на мобильных устройствах, включая бюджетные смартфоны. Разработчики создали систему с нуля на C++, оптимизированную для мобильных ограничений по энергопотреблению и производительности.

Ключевые преимущества он-девайс ИИ

Локальное выполнение моделей обеспечивает несколько критически важных преимуществ:

Задержка менее 100 мс — почти мгновенный отклик
Полная конфиденциальность — данные не покидают устройство
Работа без интернет-соединения
Значительная экономия на API-вызовах

Архитектура фреймворка для локального выполнения ИИ Cactus на смартфонах — Источник: huggingface.co

Техническая архитектура

Cactus представляет собой полноценный стек для мобильного ИИ:

Cactus Kernels — низкоуровневые вычислительные процедуры для CPU и NPU
Cactus Graph — эффективное представление нейросетевых графов
Cactus Engine — рантайм для выполнения моделей на устройстве

Система поддерживает кроссплатформенные SDK для Flutter, Kotlin и React Native, позволяя разработчикам создавать сложные рабочие процессы с инструментальными вызовами и RAG.

Производительность

На тестах с моделью Qwen3-600m-int8 на CPU:

16-20 токенов/сек на устройствах типа Pixel 6a или iPhone 11
70+ токенов/сек на последних iPhone 17 и Galaxy S25 Ultra
Время до первого токена — от 50 мс

То, что раньше было прерогативой флагманов, теперь доступно на устройствах среднего класса. Cactus демонстрирует, что оптимизация кода может быть эффективнее, чем простое наращивание аппаратных мощностей. Особенно впечатляет поддержка старых устройств — это настоящий демократизатор мобильного ИИ, который может изменить правила игры в регионах с преобладанием бюджетных смартфонов.

Доступность и применение

Проект с открытым исходным кодом доступен на GitHub и бесплатен для персонального использования, хобби-проектов и малого бизнеса. Демо-приложение Cactus Chat можно установить из App Store и Google Play.

Система уже обрабатывает более 500,000 инференс-задач еженедельно в production-средах. Хотя Cactus ориентирован на мобильные устройства, разработчики рекомендуют использовать проверенные инструменты вроде Ollama, llama.cpp, vLLM и MLX для десктопов и серверов.

По сообщению Hugging Face, проект представляет собой значительный шаг в демократизации мобильного искусственного интеллекта.