Оглавление
Как сообщает MIT News, современные модели компьютерного зрения часто проваливаются в, казалось бы, простой задаче — найти конкретный уникальный объект среди похожих. Пока человек легко отличает своего французского бульдога Боузера от других собак в парке, ИИ видит просто «собаку».
Проблема персонализации в компьютерном зрении
Исследователи из MIT и MIT-IBM Watson AI Lab разработали метод обучения, который позволяет моделям компьютерного зрения с языковым компонентом (VLM) локализовать персонализированные объекты в новых сценах. Техника использует специально подготовленные данные видеотрекинга, где один и тот же объект отслеживается через несколько кадров.
Ключевая особенность подхода в том, что модель вынуждена фокусироваться на контекстных подсказках для идентификации уникального объекта, а не полагаться на заученные знания. После обучения на нескольких примерах изображений персонализированного объекта модель становится способна находить этот же объект в новых изображениях.
Ирония в том, что языковые модели отлично справляются с обучением по контексту, но стоит добавить визуальную составляющую — и эта способность теряется. Похоже, проблема в том, что при объединении двух компонентов теряется часть визуальной информации, и исследователи пока не нашли четкого ответа, почему так происходит.
Непредвиденный недостаток гибридных моделей
Как отмечает Джеханзеб Мирза, постдок MIT и старший автор работы, большие языковые модели отлично справляются с контекстным обучением. Если дать LLM несколько примеров задачи, она может научиться решать новые аналогичные задачи на основе предоставленного контекста.
VLM по сути представляет собой LLM с подключенным визуальным компонентом, поэтому исследователи ожидали, что она унаследует способности к контекстному обучению. Однако на практике это оказалось не так.
«Исследовательское сообщество пока не нашло черно-белого ответа на эту конкретную проблему. Узким местом может быть тот факт, что некоторая визуальная информация теряется в процессе объединения двух компонентов вместе, но мы просто не знаем», — объясняет Мирза.
Практическое применение и перспективы
Модели, дообученные с использованием новой методики, превзошли современные системы в задачах локализации. При этом техника сохраняет общие способности модели нетронутыми.
Это открывает возможности для:
- Отслеживания конкретных объектов во времени — например, детского рюкзака
- Локализации объектов интереса в экологическом мониторинге
- Разработки вспомогательных технологий для слабовидящих пользователей
«В конечном счете мы хотим, чтобы эти модели могли учиться из контекста, как это делают люди. Если модель сможет делать это хорошо, вместо того чтобы переобучать ее для каждой новой задачи, мы могли бы просто предоставить несколько примеров, и она бы выводила, как выполнять задачу из этого контекста. Это очень мощная способность», — говорит Мирза.
Работа будет представлена на Международной конференции по компьютерному зрению и демонстрирует важный шаг в преодолении одного из ключевых ограничений современных систем искусственного интеллекта — неспособности адаптироваться к уникальным, персонализированным объектам без масштабного переобучения.
Оставить комментарий