Оглавление

Новый стартап в области искусственного интеллекта, основанный создателями самой популярной в мире библиотеки компьютерного зрения OpenCV, представил технологию генерации реалистичных видео с участием людей длительностью до пяти минут — существенный прорыв по сравнению с возможностями конкурентов, включая Sora от OpenAI и Veo от Google.

Технологический прорыв в генерации длинного видео

CraftStory, запущенный во вторник с финансированием в $2 миллиона, представляет систему Model 2.0, которая решает одну из самых значительных проблем зарождающейся индустрии AI-видео — ограничение по длительности. В то время как Sora 2 от OpenAI ограничена 25 секундами, а большинство конкурирующих моделей генерируют клипы продолжительностью 10 секунд или меньше, система CraftStory может создавать непрерывные, связные видеопрезентации длиной до типичного YouTube-обучающего видео или демонстрации продукта.

Этот прорыв может раскрыть существенную коммерческую ценность для предприятий, которые сталкиваются с трудностями при масштабировании производства видео для обучения, маркетинга и поддержки клиентов — рынков, где короткие AI-генерируемые клипы оказались недостаточно эффективными, несмотря на их визуальное качество.

«Если вы действительно попытаетесь создать видео с помощью одной из этих систем генерации видео, вы обнаружите, что во многих случаях, когда вы хотите реализовать определенное творческое видение, независимо от того, насколько детальны инструкции, системы в основном игнорируют часть ваших указаний», — сказал Виктор Ерухимов, основатель и CEO CraftStory, в эксклюзивном интервью VentureBeat. «Мы разработали систему, которая может генерировать видео практически такой длины, какая вам нужна».

Параллельная обработка как решение проблемы длинного видео

Достижение CraftStory основано на том, что компания описывает как параллелизованную диффузионную архитектуру — принципиально иной подход к тому, как AI-модели генерируют видео, по сравнению с последовательными методами, используемыми большинством конкурентов.

Традиционные модели генерации видео работают, запуская диффузионные алгоритмы на все более крупных трехмерных объемах, где время представляет третью ось. Для генерации более длинного видео этим моделям требуются пропорционально более крупные сети, больше тренировочных данных и значительно больше вычислительных ресурсов.

CraftStory вместо этого запускает несколько меньших диффузионных алгоритмов одновременно на протяжении всей продолжительности видео с двунаправленными ограничениями, соединяющими их. «Последующая часть видео может влиять и на предыдущую часть видео», — объяснил Ерухимов. «И это довольно важно, потому что если вы делаете это одно за другим, то артефакт, который появляется в первой части, распространяется на вторую, а затем накапливается».

Вместо генерации восьми секунд и последующего соединения дополнительных сегментов система CraftStory обрабатывает все пять минут одновременно через взаимосвязанные диффузионные процессы.

Качество данных вместо количества

Ключевым моментом является то, что CraftStory тренировала свою модель на собственном видеоматериале, а не полагалась исключительно на видео, собранные из интернета. Компания наняла студии для съемки актеров с использованием систем камер с высокой частотой кадров, которые захватывают четкие детали даже в быстро движущихся элементах, таких как пальцы — избегая размытия движения, присущего стандартным клипам YouTube с 30 кадрами в секунду.

«Мы показали, что вам не нужно много данных и вам не нужен большой тренировочный бюджет для создания высококачественных видео», — сказал Ерухимов. «Вам просто нужны высококачественные данные».

Model 2.0 в настоящее время работает как система видео-к-видео: пользователи загружают неподвижное изображение для анимации и «ведущее видео», содержащее человека, чьи движения AI будет воспроизводить. CraftStory предоставляет предустановленные ведущие видео, снятые с профессиональными актерами, которые получают долю доходов, когда их данные движения используются, или пользователи могут загружать свои собственные видеоматериалы.

Система генерирует 30-секундные клипы с низким разрешением примерно за 15 минут. Передовая система синхронизации губ синхронизирует движения рта со сценариями или аудиодорожками, в то время как алгоритмы согласования жестов обеспечивают соответствие языка тела ритму речи и эмоциональному тону.

Битва с миллиардами при бюджете в $2 миллиона

Финансирование CraftStory поступает почти полностью от Эндрю Филева, который продал свою компанию по разработке программного обеспечения для управления проектами Wrike компании Citrix за $2,25 миллиарда в 2021 году и теперь управляет Zencoder, компанией по AI-кодингу. Скромный сбор резко контрастирует с миллиардами, поступающими в конкурирующие усилия — только OpenAI привлекла более $6 миллиардов в своем последнем раунде финансирования.

Ерухимов отверг представление о том, что массивный капитал является обязательным условием для успеха. «Я не обязательно согласен с тезисом, что вычислительные мощности — это путь к успеху», — сказал он. «Это определенно помогает, если у вас есть вычислительные мощности. Но если вы собираете миллиард долларов на PowerPoint, в конце концов, никто не счастлив, ни основатели, ни инвесторы».

Филев защитил подход Давида против Голиафа. «Когда вы инвестируете в стартапы, вы по сути делаете ставку на людей», — сказал он в интервью VentureBeat. «Перефразируя Маргарет Мид: никогда не недооценивайте, что может построить небольшая группа вдумчивых, преданных инженеров и ученых».

Он утверждал, что CraftStory выигрывает от сфокусированной стратегии. «Большие лаборатории участвуют в гонке вооружений за создание моделей общего назначения для видео», — сказал Филев. «CraftStory использует эту волну и углубляется в очень специфический формат: длинное, увлекательное, ориентированное на человека видео».

Интересно наблюдать, как классические специалисты по компьютерному зрению возвращаются в игру после доминирования transformer-архитектур. Параллельная диффузионная архитектура — это умный ход, который обходит фундаментальные ограничения последовательной генерации. Вместо того чтобы наращивать вычислительную мощность, они переосмыслили саму архитектуру. Особенно впечатляет подход к данным — наем студий для съемки специализированного контента вместо скрейпинга YouTube. Это именно тот тип инженерного подхода, которого не хватает в современной AI-гонке, где все пытаются решить проблемы через масштабирование.

Стратегия для корпоративного рынка

В то время как большая часть общественного ажиотажа вокруг генерации AI-видео сосредоточена на творческих инструментах для потребителей, CraftStory преследует явно корпоративно-ориентированную стратегию.

«Мы определенно больше думаем о B2B, чем о потребителях», — сказал Ерухимов. «Мы думаем о компаниях, особенно о программных компаниях, которые смогут создавать крутые обучающие видео, продуктовые видео и видео для запуска».

Логика проста: корпоративное обучение, продуктовые обучающие программы и видео для поддержки клиентов часто длятся несколько минут и требуют последовательного качества на протяжении всего времени. 10-секундный AI-клип не может эффективно продемонстрировать, как использовать корпоративное программное обеспечение или объяснить сложную функцию продукта.

«Если вам нужно более длинное видео, тогда вам следует обратиться к нам», — сказал Ерухимов. «Мы можем создавать видео длиной до пяти минут, последовательные, высокого качества».

Филев поддержал эту оценку. «Огромный пробел на этом рынке — отсутствие моделей, которые могут генерировать последовательные видео в течение более длинных последовательностей — и это чрезвычайно важно для реального использования», — сказал он. «Если вы создаете коммерческий ролик для своей компании, 10-секундное видео…»

По материалам VentureBeat.