Современные мультимодальные системы уже давно приучили нас к тому, что ИИ может описывать пейзажи, расшифровывать медицинские графики и извлекать текст из фотографий, однако одна из самых базовых человеческих способностей — умение точно считать объекты — до сих пор оставалась для алгоритмов камнем преткновения. Исследователи из Университета Цинхуа представили модель под названием Count Anything, которая, как сообщает The Decoder, способна находить и пересчитывать цели в самых разных визуальных средах: от спутниковых снимков до микроскопических мазков крови.
Проблема специализированных систем подсчета всегда заключалась в их узкой направленности: алгоритм, идеально считающий автомобили на парковке, обычно пасует перед колониями бактерий в чашке Петри или колосьями пшеницы в поле. Count Anything стремится стать тем самым универсальным инструментом, который понимает текстовый запрос пользователя и отмечает каждый найденный объект, независимо от того, насколько плотно они расположены или к какому домену относится изображение.
Гибридный метод и архитектурные решения
В основе архитектуры лежит изящное, хотя и не лишенное иронии в своей простоте решение: объединение двух разных подходов, которые компенсируют недостатки друг друга. Первый метод фокусируется на крупных объектах, выделяя их ограничивающими рамками, в то время как второй специализируется на мелких и плотных скоплениях, помечая каждый целевой объект точкой.
Система базируется на фундаменте модели SAM3 от компании Meta*, предназначенной для сегментации изображений. Вместо того чтобы переучивать всю нейросеть целиком, разработчики добавили компактные адаптеры, настроенные специально под задачи подсчета. Это позволяет сохранить общие знания модели о мире, добавив ей специфическую «математическую» зоркость без катастрофических затрат на вычисления.
Для обучения такого универсала потребовался соответствующий массив данных. Исследователи объединили разрозненные наборы в единый датасет CLOC, который включает 220 000 изображений и охватывает шесть доменов: от повседневных фото до гистопатологии. Результаты впечатляют: в тестах модель ошибается в среднем на 9 объектов, в то время как ближайшие конкуренты, такие как CountGD или Grounding DINO, показывают погрешность в два раза выше.
Архитектурная надстройка над SAM3 лишь маскирует фундаментальную проблему: модель все еще не понимает суть объекта, а лишь сопоставляет паттерны. В условиях реального производства, где цена ошибки в подсчете микродефектов или клеток критична, доверие к системе с погрешностью в девять единиц остается под вопросом. Это отличный шаг к универсальному зрению, но пока это скорее продвинутый статистический классификатор, чем надежный аудитор.
Практические ограничения и человеческий фактор
Несмотря на технологический рывок, авторы работы признают наличие «белых пятен» в работе алгоритма. При столкновении с неоднозначными терминами или узкоспециализированной терминологией модель может ошибочно классифицировать объекты или вовсе их игнорировать. В сценах с экстремально высокой плотностью, где объекты перекрывают друг друга, системе становится трудно отличить две разные точки от одной, что ведет к неизбежным статистическим искажениям.
Ситуация с Count Anything лишний раз подчеркивает разрыв между машинным и человеческим восприятием, который недавно был зафиксирован в бенчмарке BabyVision. Там топовые модели ИИ показали результаты хуже трехлетнего ребенка, особенно в задачах на подсчет частично скрытых объектов. Оказывается, то, что для человека является естественным навыком, для нейросети остается сложнейшей математической абстракцией, требующей миллионов примеров для обучения.
*Meta признана экстремистской и запрещена в РФ
Оставить комментарий