Оглавление

Новый фреймворк Cactus позволяет запускать языковые и мультимодальные модели прямо на мобильных устройствах, включая бюджетные смартфоны. Разработчики создали систему с нуля на C++, оптимизированную для мобильных ограничений по энергопотреблению и производительности.

Ключевые преимущества он-девайс ИИ

Локальное выполнение моделей обеспечивает несколько критически важных преимуществ:

  • Задержка менее 100 мс — почти мгновенный отклик
  • Полная конфиденциальность — данные не покидают устройство
  • Работа без интернет-соединения
  • Значительная экономия на API-вызовах
Архитектура фреймворка для локального выполнения ИИ Cactus на смартфонах
Источник: huggingface.co

Техническая архитектура

Cactus представляет собой полноценный стек для мобильного ИИ:

  • Cactus Kernels — низкоуровневые вычислительные процедуры для CPU и NPU
  • Cactus Graph — эффективное представление нейросетевых графов
  • Cactus Engine — рантайм для выполнения моделей на устройстве

Система поддерживает кроссплатформенные SDK для Flutter, Kotlin и React Native, позволяя разработчикам создавать сложные рабочие процессы с инструментальными вызовами и RAG.

Производительность

На тестах с моделью Qwen3-600m-int8 на CPU:

  • 16-20 токенов/сек на устройствах типа Pixel 6a или iPhone 11
  • 70+ токенов/сек на последних iPhone 17 и Galaxy S25 Ultra
  • Время до первого токена — от 50 мс

То, что раньше было прерогативой флагманов, теперь доступно на устройствах среднего класса. Cactus демонстрирует, что оптимизация кода может быть эффективнее, чем простое наращивание аппаратных мощностей. Особенно впечатляет поддержка старых устройств — это настоящий демократизатор мобильного ИИ, который может изменить правила игры в регионах с преобладанием бюджетных смартфонов.

Доступность и применение

Проект с открытым исходным кодом доступен на GitHub и бесплатен для персонального использования, хобби-проектов и малого бизнеса. Демо-приложение Cactus Chat можно установить из App Store и Google Play.

Система уже обрабатывает более 500,000 инференс-задач еженедельно в production-средах. Хотя Cactus ориентирован на мобильные устройства, разработчики рекомендуют использовать проверенные инструменты вроде Ollama, llama.cpp, vLLM и MLX для десктопов и серверов.

По сообщению Hugging Face, проект представляет собой значительный шаг в демократизации мобильного искусственного интеллекта.