Оглавление
На бумаге возможности искусственного интеллекта кажутся почти безграничными. Он может классифицировать изображения, определять суставы и выявлять паттерны с невероятной скоростью. Но стоит выйти за пределы лаборатории в реальные пространства, где люди действительно двигаются — в спортзалы, цеха, клиники и офисы, — и картина меняется. Рабочий слишком сильно наклоняется при подъеме груза, а система ИИ этого не замечает. Пациент переносит вес неравномерно, и ИИ не может понять, почему.
Хотя эти ошибки могут казаться простыми, они отражают реальность многих современных систем ИИ: они с трудом понимают человеческое движение. И причина в том, что многие системы ИИ обучались на миллиардах статичных изображений, тогда как движение человека никогда не бывает статичным. Оно разворачивается во времени, формируясь под воздействием силы, усталости, ритма и намерения. Не понимая эти элементы, ИИ может лишь строить догадки.
Этот пробел влияет на безопасность, восстановление и производительность в различных отраслях. И он объясняет, почему сейчас так много команд пытаются научить ИИ тому, что люди осваивают в раннем детстве: как осмысливать то, как двигаются люди. Поскольку все больше отраслей полагаются на ИИ для наблюдения, наставничества или автоматизации физической работы, ограничения сегодняшних систем становятся все труднее игнорировать.
Почему ИИ неверно интерпретирует физический мир
Большинство систем компьютерного зрения превосходно распознают объекты. Они могут отличить обувь от стула или человека от стены. Но как только их просят оценить, как движется тело, начинают проявляться реальные изъяны. Один кадр может зафиксировать позу, но не покажет, устойчив ли человек, компенсирует ли нагрузку или вот-вот нарушит форму.
Движение также несет в себе слои смысла, которые ИИ с трудом интерпретирует. Колено, движущееся внутрь, может сигнализировать об усталости, ограниченной подвижности или просто смене стойки. Подъем плеча во время подъема может быть привычкой или следствием боли. Люди читают эти сигналы инстинктивно, а машины часто не могут.
Окружающая среда добавляет еще один слой сложности. В спортзалах, клиниках, на заводах и в домах меняется освещение, варьируются углы съемки, в кадр попадают другие люди. Исследования в области компьютерного зрения показали, что даже относительно небольшие изменения в освещении, перекрытии объектов и ориентации могут значительно снизить точность моделей, даже если эти модели хорошо работают на стандартных бенчмарках.
Исследователи по всей отрасли упираются в одну и ту же стену. Команды, работающие над анализом движения для робототехники, реабилитации и эргономики рабочего места — от проектов вроде набора данных Ego4D до исследований Google MotionLM для воплощенного ИИ — все отмечают, насколько непредсказуемым может быть реальное движение и как легко современные модели теряются вне контролируемой среды.
Как сказал Амол Гарат, сооснователь FlexAI: «Научить ИИ видеть форму — это не то же самое, что научить его распознавать объекты. Мы не ищем кошку на фотографии. Мы отслеживаем кинетические цепи во времени, понимая, как суставы должны двигаться относительно друг друга под нагрузкой». Эта разница важна, потому что многие используемые сегодня системы были созданы для общих задач компьютерного зрения и изначально не проектировались для понимания того, как ведут себя тела в реальных условиях.
Для отраслей, зависящих от точного движения, этот недостаток может иметь катастрофические последствия. Если модели неверно интерпретируют, как рабочие поднимают груз, как ходят пациенты или как приземляются спортсмены после прыжка, они упускают те самые паттерны, которые приводят к травмам, потере производительности и, в некоторых случаях, к смертельным случаям.
Пробел в данных, тормозящий понимание движения
Одним из самых больших препятствий является нехватка реалистичных, размеченных данных о движении. Лаборатории захвата движения давно собирают высококачественные наборы данных, но они полагаются на контролируемые условия: специализированные камеры, маркерные костюмы, фиксированное освещение и хореографированные движения. Эти наборы данных ценны для науки, но они не похожи на повседневную жизнь на складе, в клинике или спортзале.
Недавнее исследование биомеханики также подчеркивает, насколько сильно варьируется человеческое движение у разных людей, в зависимости от уровня усталости и истории травм. Именно эту вариативность ИИ и должен видеть, чтобы делать надежные выводы. Однако большинство потребительских видео не содержат тех видов биомеханических меток, на которые полагаются эти системы. А без этого экспертного руководства ИИ не может определить, является ли движение безобидным или признаком того, что что-то идет не так.
Из-за этого многим командам в этой области пришлось создавать собственные наборы данных. FlexAI — один из примеров. Когда основатели FlexAI начали искать реальные данные о движениях в спортзале, они обнаружили, что подходящих практически нет. «Минимальное финансирование заставило нас создавать крупномасштабный набор данных с нуля — в виде просмотра тысяч видеозаписей — под руководством фитнес-тренеров», — сказал генеральный директор Амин Нири. Каждый кадр нуждался в разметке для положения бедра, траектории колена, положения позвоночника и других маркеров, которые важны в силовых тренировках.
Подобные проблемы проявляются и в других областях. Исследователи реабилитации создают пользовательские наборы данных для нестабильности суставов. Спортивные технологические компании записывают спортсменов разного уровня мастерства, чтобы зафиксировать реальные вариации. Команды по безопасности на рабочем месте собирают видеоматериалы с реальных рабочих мест, чтобы понять, как усталость и повторение влияют на осанку. Все обнаруживают, что общие наборы данных для оценки позы просто не отражают сложность человеческого движения в естественных условиях.
Даже при наличии правильных данных скорость и конфиденциальность все еще создают помехи. Обратная связь должна поступать мгновенно, чтобы помочь человеку скорректировать движение в процессе. Но отправка видео в облако часто создает задержки и порождает новые опасения по поводу хранения и доступа. Это одна из причин, по которой компании, работающие над отслеживанием движения, переносят больше вычислений на само устройство, а не на удаленные серверы. «Каждая миллисекунда задержки имеет значение, когда вы пытаетесь дать обратную связь в середине повторения», — отметил Гарат.
Новый подход к пониманию того, как двигаются люди
Если ИИ сможет научиться понимать движение, как люди, влияние может распространиться далеко за пределы фитнес-приложений на телефоне. Команды физиотерапевтов смогут удаленно отслеживать восстановление и корректировать планы на основе того, как пациенты действительно двигаются дома. Программы безопасности на рабочем месте смогут выявлять опасные паттерны подъема или неудобные позы до того, как они превратятся в регистрируемые травмы. Спортивные организации смогут предложить анализ движений гораздо большему числу спортсменов, чем может охватить биомеханическая лаборатория.
Самая сложная оставшаяся задача — понять человеческое состояние, стоящее за тем, что видит камера. Модели FlexAI могут обнаруживать нарушения формы и паттерны компенсации во время подъема, но они еще не могут объяснить, вызваны ли эти паттерны усталостью, ограниченной подвижностью, старой травмой или простым непониманием техники. То же самое справедливо для реабилитации или условий рабочего места. Изменение в движении может означать, что человек устал, испытывает боль, находится в стрессе или просто адаптируется к новой задаче.
Преодоление этого разрыва, вероятно, потребует больше, чем компьютерного зрения.
Основная проблема даже не в данных, а в самой парадигме обучения. Современный ИИ, натренированный на миллиардах статических кадров, пытается понять динамический мир, сводя его к последовательности застывших мгновений. Это как изучать музыку по фотографиям нот, игнорируя ритм, гармонию и паузы. Решение лежит не в увеличении датасетов, а в создании принципиально новых архитектур, способных воспринимать движение как непрерывный поток, а не как набор дискретных состояний. Пока этого не произойдет, ИИ будет оставаться слепым к самой сути человеческой активности — ее контексту и намерению.
Источник новости: Forbes
Оставить комментарий