Count Anything: Новая модель ИИ для универсального подсчета

Новая модель Count Anything от исследователей Университета Цинхуа решает сложную задачу универсального подсчета объектов на изображениях разных типов с помощью текстовых подсказок.

Оглавление

Гибридный метод и архитектурные решения
Практические ограничения и человеческий фактор

Современные мультимодальные системы уже давно приучили нас к тому, что ИИ может описывать пейзажи, расшифровывать медицинские графики и извлекать текст из фотографий, однако одна из самых базовых человеческих способностей — умение точно считать объекты — до сих пор оставалась для алгоритмов камнем преткновения. Исследователи из Университета Цинхуа представили модель под названием Count Anything, которая, как сообщает The Decoder, способна находить и пересчитывать цели в самых разных визуальных средах: от спутниковых снимков до микроскопических мазков крови.

Проблема специализированных систем подсчета всегда заключалась в их узкой направленности: алгоритм, идеально считающий автомобили на парковке, обычно пасует перед колониями бактерий в чашке Петри или колосьями пшеницы в поле. Count Anything стремится стать тем самым универсальным инструментом, который понимает текстовый запрос пользователя и отмечает каждый найденный объект, независимо от того, насколько плотно они расположены или к какому домену относится изображение.

Гибридный метод и архитектурные решения

В основе архитектуры лежит изящное, хотя и не лишенное иронии в своей простоте решение: объединение двух разных подходов, которые компенсируют недостатки друг друга. Первый метод фокусируется на крупных объектах, выделяя их ограничивающими рамками, в то время как второй специализируется на мелких и плотных скоплениях, помечая каждый целевой объект точкой.

Система базируется на фундаменте модели SAM3 от компании Meta*, предназначенной для сегментации изображений. Вместо того чтобы переучивать всю нейросеть целиком, разработчики добавили компактные адаптеры, настроенные специально под задачи подсчета. Это позволяет сохранить общие знания модели о мире, добавив ей специфическую «математическую» зоркость без катастрофических затрат на вычисления.

Для обучения такого универсала потребовался соответствующий массив данных. Исследователи объединили разрозненные наборы в единый датасет CLOC, который включает 220 000 изображений и охватывает шесть доменов: от повседневных фото до гистопатологии. Результаты впечатляют: в тестах модель ошибается в среднем на 9 объектов, в то время как ближайшие конкуренты, такие как CountGD или Grounding DINO, показывают погрешность в два раза выше.

Архитектурная надстройка над SAM3 лишь маскирует фундаментальную проблему: модель все еще не понимает суть объекта, а лишь сопоставляет паттерны. В условиях реального производства, где цена ошибки в подсчете микродефектов или клеток критична, доверие к системе с погрешностью в девять единиц остается под вопросом. Это отличный шаг к универсальному зрению, но пока это скорее продвинутый статистический классификатор, чем надежный аудитор.

Практические ограничения и человеческий фактор

Несмотря на технологический рывок, авторы работы признают наличие «белых пятен» в работе алгоритма. При столкновении с неоднозначными терминами или узкоспециализированной терминологией модель может ошибочно классифицировать объекты или вовсе их игнорировать. В сценах с экстремально высокой плотностью, где объекты перекрывают друг друга, системе становится трудно отличить две разные точки от одной, что ведет к неизбежным статистическим искажениям.

Ситуация с Count Anything лишний раз подчеркивает разрыв между машинным и человеческим восприятием, который недавно был зафиксирован в бенчмарке BabyVision. Там топовые модели ИИ показали результаты хуже трехлетнего ребенка, особенно в задачах на подсчет частично скрытых объектов. Оказывается, то, что для человека является естественным навыком, для нейросети остается сложнейшей математической абстракцией, требующей миллионов примеров для обучения.

*Meta признана экстремистской и запрещена в РФ

Новости

Китайские ученые представили модель Count Anything, которая умеет только считать объекты

Гибридный метод и архитектурные решения

Практические ограничения и человеческий фактор

Еще интереснее

Исследователи предложили способ обучать LLM суммаризации процессов мышления через RLVR

Разработчики из Sapient смогли обучить базовую ИИ-модель всего за $1500

Исследование показало, что крупные LLM часто «мыслят» похоже и дают одинаковые ответы

ИИ-судьи не могут быть беспристрастными, потому что часто игнорируют новый контекст

Оставить комментарий