Amazon Bedrock обнаруживает неизвестные объекты в видео через текст

Amazon Bedrock Data Automation внедрил открытое обнаружение объектов, позволяя искать в видео любые объекты по текстовым описаниям без переобучения моделей.

Оглавление

Проблема закрытых систем компьютерного зрения
Как работает открытое обнаружение объектов
Практические применения технологии
Техническая реализация

Как сообщает AWS Machine Learning Blog, Amazon Bedrock Data Automation теперь поддерживает открытое обнаружение объектов (OSOD) в видеоаналитике. Это решает фундаментальную проблему традиционных компьютерного зрения: невозможность распознавать объекты, не входившие в обучающий набор.

Проблема закрытых систем компьютерного зрения

Классические модели обнаружения объектов работают по принципу «закрытого набора» — они способны распознавать только те категории, на которых были обучены. В реальном мире это создает серьезные ограничения: медиакомпании не могут отслеживать новые бренды в пользовательском контенте, системы видеонаблюдения пропускают нестандартные угрозы, а производственные линии игнорируют ранее не встречавшиеся дефекты.

Как работает открытое обнаружение объектов

Технология OSOD сочетает компьютерное зрение с семантическим пониманием через визуальные модели. Ключевые возможности:

Обнаружение объектов по текстовым описаниям любой сложности
Работа с неизвестными ранее категориями без переобучения модели
Поддержка запросов от конкретных («белая машина с красными колесами») до абстрактных («опасные элементы»)
Вывод координат ограничительных рамок в формате XYWH с оценками достоверности

Наконец-то компьютерное зрение перестало быть «слепым» к новым объектам. Технология OSOD — это как дать модели словарь вместо фиксированного списка слов. Правда, теперь вся магия упирается в качество промптов — инженерам придется осваивать искусство формулировок вместо лабеллинга данных.

Практические применения технологии

Amazon Bedrock Data Automation демонстрирует несколько ключевых сценариев использования:

Анализ рекламных размещений

Маркетологи могут отслеживать появление продуктов в видеоинфлюенсеров, даже если визуальное исполнение отличается от эталонного. Запрос «Detect the locations of echo devices» точно локализует устройства независимо от ракурса и окружения.

Пример видеонаблюдения с обнаружением опасных элементов в видео через текстовые запросы — Источник: aws.amazon.com

Интеллектуальное изменение размера видео

Система определяет ключевые визуальные элементы для сохранения при адаптации под разные экраны. Запрос «Detect the key elements in the video» выделяет композиционно важные объекты.

Пример обнаружения устройств Echo с выделением их рамками на изображении — Источник: aws.amazon.com

Системы видеонаблюдения

Без перечисления всех возможных угроз система реагирует на запросы типа «Check dangerous elements in the video», идентифицируя потенциально опасные объекты.

Пример умного изменения размера с обнаружением ключевых элементов в кадрах видео — Источник: aws.amazon.com

Пользовательские метки и поиск

Возможность создавать произвольные категории для поиска в видеоархивах. Запрос «Detect the white car with red wheels» точно находит конкретный автомобиль.

Пример работы Custom Labels: обнаружение белого автомобиля с красными колесами — Источник: aws.amazon.com

Техническая реализация

Сервис интегрирован в видео модели Amazon Bedrock Data Automation и работает на уровне отдельных кадров. Модель возвращает JSON с координатами обнаруженных объектов, метками и показателями уверенности. Разработчики могут фильтровать результаты по шкале достоверности для баланса между точностью и полнотой.

Особенность реализации — поддержка динамических полей вводных текстов, что позволяет создавать гибкие пайплайны анализа без перепрограммирования.

Новости

Amazon Bedrock научился обнаруживать неизвестные объекты в видео через текстовые запросы

Проблема закрытых систем компьютерного зрения

Как работает открытое обнаружение объектов

Практические применения технологии

Анализ рекламных размещений

Интеллектуальное изменение размера видео

Системы видеонаблюдения

Пользовательские метки и поиск

Техническая реализация

Еще интереснее

Почему масштаб контекста перестал быть главным мерилом эффективности LLM

Новый фреймворк cua-bench решает проблему хрупкости ИИ-агентов для управления компьютером

AWS представил интеграцию SageMaker MLflow и Snowflake для отслеживания ML-экспериментов

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

Оставить комментарий