GeoVista: открытая модель ИИ для геолокации изображений

Китайские исследователи создали открытую модель GeoVista для геолокации изображений, которая по точности сравнялась с коммерческими ИИ от Google и OpenAI.

Оглавление

Архитектура и принцип работы
Двухэтапное обучение модели
Результаты тестирования
Новый бенчмарк GeoBench

Команда исследователей из Китая представила GeoVista — открытую модель искусственного интеллекта, которая определяет местоположение по фотографиям с точностью, сравнимой с ведущими коммерческими решениями. Система сочетает визуальный анализ с поиском в интернете в реальном времени, сообщает The Decoder.

Блок-схема агентского конвейера GeoVista: запрос пользователя, модель политики и инструменты масштабирования/поиска

Архитектура и принцип работы

Разработанная совместно Tencent и несколькими университетами, модель использует два основных инструмента:

Функция увеличения — позволяет детально изучать конкретные области изображения
Поисковый инструмент — извлекает до десяти релевантных источников из платформ типа Tripadvisor, Instagram, Facebook, Pinterest и Wikipedia

GeoVista автоматически решает, когда применять каждый из инструментов, что отличает её от моделей вроде Mini-o3 или DeepEyes от ByteDance, которые фокусируются на манипуляциях с изображениями.

Таблица сравнения точности GeoBench: производительность моделей с открытым и закрытым исходным кодом

Двухэтапное обучение модели

Система построена на базе Qwen2.5-VL-7B-Instruct и обучалась в два этапа:

Контролируемое обучение — 2000 примеров для базового мышления и использования инструментов
Обучение с подкреплением — 12 000 примеров с кастомной системой вознаграждений

Система вознаграждения была настроена на географическую точность: правильные ответы на уровне города получали более высокие баллы, чем на уровне провинции или страны.

Особенно впечатляет подход с многоуровневой системой вознаграждений — это технически грамотное решение, которое заставляет модель реально учиться различать важность деталей. Фактически, исследователи создали ИИ, который понимает разницу между «это где-то в Италии» и «это конкретная площадь в Риме». И самое главное — всё это теперь доступно в открытом доступе, что может серьёзно изменить расстановку сил на рынке геолокационных сервисов.

Результаты тестирования

На собственном датасете GeoBench модель показала впечатляющие результаты:

Точность на уровне страны: 92,64%
Точность на уровне провинции: 79,60%
Точность на уровне города: 72,68%

Лучшие результаты достигнуты на панорамах (79,49%) и стандартных фото (72,27%), тогда как спутниковые изображения остаются самой сложной задачей (44,92%).

Схема оценки GeoBench: процесс геокодирования и расчет расстояния

В сравнении с коммерческими аналогами GeoVista показывает конкурентоспособные показатели:

Gemini 2.5 Pro: 78,98% на уровне города
GPT-5: 67,11% на уровне города
Gemini 2.5 Flash: 73,29% на уровне города

По расстоянию 52,83% предсказаний GeoVista оказались в пределах 3 км от реального местоположения со средним отклонением 2,35 км.

Новый бенчмарк GeoBench

Исследователи также представили GeoBench — датасет из 1142 высококачественных изображений из 66 стран и 108 городов, включающий:

512 стандартных фотографий
512 панорам
108 спутниковых снимков

Ключевое отличие от существующих наборов данных — строгая фильтрация: удалены нелокализуемые изображения (крупные планы еды, общие пейзажи) и легко узнаваемые достопримечательности.

Модель, код и бенчмарк доступны на странице проекта. Технология поднимает важные вопросы приватности — теперь практически любое публичное фото может быть точно локализовано с помощью ИИ.

Новости

Китайская открытая модель GeoVista догнала коммерческие ИИ в геолокации изображений

Архитектура и принцип работы

Двухэтапное обучение модели

Результаты тестирования

Новый бенчмарк GeoBench

Еще интереснее

Почему масштаб контекста перестал быть главным мерилом эффективности LLM

Новый фреймворк cua-bench решает проблему хрупкости ИИ-агентов для управления компьютером

AWS представил интеграцию SageMaker MLflow и Snowflake для отслеживания ML-экспериментов

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

Оставить комментарий