Stability AI выпустила Stable Audio 3.0: 6 минут музыки

Stability AI обновила свою аудиомодель до версии 3.0, представив возможность генерации шестиминутных треков и открытые веса для большинства версий.

Оглавление

Архитектурные изменения и возможности для разработчиков
Эволюция от изображений к звуковым ландшафтам

Компания Stability AI анонсировала выпуск Stable Audio 3.0 — нового поколения моделей для генерации звука, которые способны создавать полноценные музыкальные композиции длительностью до шести минут. Как сообщает The Decoder, ключевой особенностью релиза стал переход на полностью лицензированные данные для обучения, что выглядит как попытка дистанцироваться от конкурентов, погрязших в судебных разбирательствах.

Семейство включает четыре варианта моделей, три из которых доступны с открытыми весами. Младшие версии, Stable Audio 3.0 Small SFX и Small, имеющие по 459 миллионов параметров, справляются с генерацией двухминутных треков менее чем за полсекунды на мощностях H200 GPU. Модель Medium с 1,4 миллиарда параметров расширяет хронометраж до 6 минут 20 секунд, а флагманская Large остается эксклюзивом для корпоративных клиентов и API-пользователей.

Архитектурные изменения и возможности для разработчиков

В основе свежего релиза лежит обновленная архитектура с семантико-акустическим автоэнкодером. Это решение позволяет контролировать генерацию с точностью до секунды, что выгодно отличает новинку от предыдущих итераций. Если Stable Audio Open Small ограничивалась короткими фрагментами по 11 секунд, то нынешняя версия Small обеспечивает полноценную композицию непосредственно на устройстве пользователя без необходимости постоянного подключения к облаку.

Для тех, кто привык настраивать инструменты под свои задачи, Stability AI опубликовала документацию по обучению LoRA (Low-Rank Adaptation). Это позволяет специалистам проводить дообучение или fine-tuning моделей на собственных библиотеках звуков. В дополнение к этому, функционал инпейнтинга дает возможность редактировать отдельные сегменты трека или продолжать существующие аудиозаписи, сохраняя их стилистическую целостность.

Вопрос легальности контента стал центральным в стратегии компании. Использование данных от таких гигантов, как Universal Music Group и Warner Music Group, позволяет предоставлять корпоративным клиентам юридическую защиту. Согласно условиям лицензии Stability AI Community License, коммерческое использование результатов генерации бесплатно для организаций с годовым доходом менее одного миллиона долларов.

Пока конкуренты борются с правообладателями, Stability AI выстраивает «безопасную гавань», жертвуя, возможно, той долей хаотичного творчества, которую давали менее стерильные датасеты. Мы видим качественный инструмент для продакшена, но едва ли полноценную замену композитору в ближайшем квартале. Попытка усидеть на двух стульях — открытых весах и корпоративной закрытости — выглядит как вынужденный маневр в условиях финансовой турбулентности.

Эволюция от изображений к звуковым ландшафтам

Путь компании к текущему релизу напоминает попытку переосмыслить свою идентичность после ухода основателя Эмада Мостака. История развития аудио-направления Stability AI выглядит следующим образом:

Сентябрь 2023 года: Запуск первой версии Stable Audio на базе данных AudioSparx (около 800 000 треков).
Апрель 2024 года: Релиз версии 2.0 с поддержкой аудио высокого качества (44,1 кГц) длительностью до трех минут.
Май 2025 года: Коллаборация с Arm для оптимизации генерации звука на смартфонах.
Сентябрь 2025 года: Выход версии 2.5 с улучшенной структурой композиций (вступление, развитие, финал).

Такая последовательность действий подчеркивает стремление компании занять нишу профессионального звукового дизайна. В то время как другие игроки рынка, такие как Suno или Udio, сталкиваются с претензиями по поводу «запоминания» защищенных авторским правом мелодий, Stability AI делает ставку на прозрачность. Опыт немецких судов, признавших OpenAI ответственной за воспроизведение текстов песен, лишь подтверждает актуальность такого осторожного подхода в современных реалиях индустрии.

Новости

Stability AI представила Stable Audio 3.0: генерация музыки до 6 минут и открытые веса

Архитектурные изменения и возможности для разработчиков

Эволюция от изображений к звуковым ландшафтам

Еще интереснее

xAI представила Grok 4.5 — модель уровня GPT 5.5, но в разы дешевле

OpenAI представила GPT-Live — новое поколение голосовых моделей

Anthropic предлагает использовать Claude Fable 5 как планировщика для Sonnet 5 ради экономии

Microsoft заменяет модели OpenAI и Anthropic в Copilot собственными разработками

Оставить комментарий