Оглавление
Как сообщает AWS Machine Learning Blog, Amazon Bedrock Data Automation теперь поддерживает открытое обнаружение объектов (OSOD) в видеоаналитике. Это решает фундаментальную проблему традиционных компьютерного зрения: невозможность распознавать объекты, не входившие в обучающий набор.
Проблема закрытых систем компьютерного зрения
Классические модели обнаружения объектов работают по принципу «закрытого набора» — они способны распознавать только те категории, на которых были обучены. В реальном мире это создает серьезные ограничения: медиакомпании не могут отслеживать новые бренды в пользовательском контенте, системы видеонаблюдения пропускают нестандартные угрозы, а производственные линии игнорируют ранее не встречавшиеся дефекты.
Как работает открытое обнаружение объектов
Технология OSOD сочетает компьютерное зрение с семантическим пониманием через визуальные модели. Ключевые возможности:
- Обнаружение объектов по текстовым описаниям любой сложности
- Работа с неизвестными ранее категориями без переобучения модели
- Поддержка запросов от конкретных («белая машина с красными колесами») до абстрактных («опасные элементы»)
- Вывод координат ограничительных рамок в формате XYWH с оценками достоверности
Наконец-то компьютерное зрение перестало быть «слепым» к новым объектам. Технология OSOD — это как дать модели словарь вместо фиксированного списка слов. Правда, теперь вся магия упирается в качество промптов — инженерам придется осваивать искусство формулировок вместо лабеллинга данных.
Практические применения технологии
Amazon Bedrock Data Automation демонстрирует несколько ключевых сценариев использования:
Анализ рекламных размещений
Маркетологи могут отслеживать появление продуктов в видеоинфлюенсеров, даже если визуальное исполнение отличается от эталонного. Запрос «Detect the locations of echo devices» точно локализует устройства независимо от ракурса и окружения.

Интеллектуальное изменение размера видео
Система определяет ключевые визуальные элементы для сохранения при адаптации под разные экраны. Запрос «Detect the key elements in the video» выделяет композиционно важные объекты.

Системы видеонаблюдения
Без перечисления всех возможных угроз система реагирует на запросы типа «Check dangerous elements in the video», идентифицируя потенциально опасные объекты.

Пользовательские метки и поиск
Возможность создавать произвольные категории для поиска в видеоархивах. Запрос «Detect the white car with red wheels» точно находит конкретный автомобиль.

Техническая реализация
Сервис интегрирован в видео модели Amazon Bedrock Data Automation и работает на уровне отдельных кадров. Модель возвращает JSON с координатами обнаруженных объектов, метками и показателями уверенности. Разработчики могут фильтровать результаты по шкале достоверности для баланса между точностью и полнотой.
Особенность реализации — поддержка динамических полей вводных текстов, что позволяет создавать гибкие пайплайны анализа без перепрограммирования.
Оставить комментарий