Stability AI представила обновленную версию своей нейросети для генерации аудио — Stable Audio 2.5. Модель позиционируется как первое решение для корпоративного использования в звукозаписывающей индустрии.
Ключевые возможности новой версии
Stable Audio 2.5 предлагает несколько значительных улучшений по сравнению с предыдущими версиями:
- Увеличенная длина генерируемых аудиотреков — до 90 секунд
- Повышенное качество звука с частотой дискретизации 44.1 кГц
- Улучшенная согласованность стиля на протяжении всего трека
- Поддержка стереозвука
- Возможность тонкой настройки параметров генерации
Технические особенности
Модель основана на архитектуре диффузионных преобразователей и обучена на лицензированном аудиоматериале от партнеров Stability AI. Это обеспечивает юридическую чистоту генерируемого контента — критически важный фактор для коммерческого использования.
Несмотря на заявленные улучшения, промышленное использование генеративного аудио все еще сталкивается с фундаментальными проблемами. Предсказуемость результата и точное соответствие техническому заданию остаются сложными задачами даже для самых продвинутых моделей. Корпоративным клиентам нужна не просто «красивая музыка», а точное попадание в бренд-бук и эмоциональный настрой.
Рыночный контекст
Stability AI явно нацеливается на рынок корпоративного контента, где спрос на лицензионно чистую фоновую музыку для рекламы, подкастов и медиапроектов исчисляется миллиардами долларов. Конкуренция в этом сегменте усиливается с появлением аналогичных решений от Google, Meta* и специализированных стартапов.
По сообщению Stability AI, модель уже доступна через API и интегрирована с популярными цифровыми аудиорабочими станциями.
* Meta (признана экстремистской и запрещена в РФ)
Оставить комментарий