Оглавление

Команда исследователей из Китая представила GeoVista — открытую модель искусственного интеллекта, которая определяет местоположение по фотографиям с точностью, сравнимой с ведущими коммерческими решениями. Система сочетает визуальный анализ с поиском в интернете в реальном времени, сообщает The Decoder.

Блок-схема агентского конвейера GeoVista: запрос пользователя, модель политики и инструменты масштабирования/поиска

Архитектура и принцип работы

Разработанная совместно Tencent и несколькими университетами, модель использует два основных инструмента:

  • Функция увеличения — позволяет детально изучать конкретные области изображения
  • Поисковый инструмент — извлекает до десяти релевантных источников из платформ типа Tripadvisor, Instagram, Facebook, Pinterest и Wikipedia

GeoVista автоматически решает, когда применять каждый из инструментов, что отличает её от моделей вроде Mini-o3 или DeepEyes от ByteDance, которые фокусируются на манипуляциях с изображениями.

Таблица сравнения точности GeoBench: производительность моделей с открытым и закрытым исходным кодом

Двухэтапное обучение модели

Система построена на базе Qwen2.5-VL-7B-Instruct и обучалась в два этапа:

  1. Контролируемое обучение — 2000 примеров для базового мышления и использования инструментов
  2. Обучение с подкреплением — 12 000 примеров с кастомной системой вознаграждений

Система вознаграждения была настроена на географическую точность: правильные ответы на уровне города получали более высокие баллы, чем на уровне провинции или страны.

Особенно впечатляет подход с многоуровневой системой вознаграждений — это технически грамотное решение, которое заставляет модель реально учиться различать важность деталей. Фактически, исследователи создали ИИ, который понимает разницу между «это где-то в Италии» и «это конкретная площадь в Риме». И самое главное — всё это теперь доступно в открытом доступе, что может серьёзно изменить расстановку сил на рынке геолокационных сервисов.

Результаты тестирования

На собственном датасете GeoBench модель показала впечатляющие результаты:

  • Точность на уровне страны: 92,64%
  • Точность на уровне провинции: 79,60%
  • Точность на уровне города: 72,68%

Лучшие результаты достигнуты на панорамах (79,49%) и стандартных фото (72,27%), тогда как спутниковые изображения остаются самой сложной задачей (44,92%).

Схема оценки GeoBench: процесс геокодирования и расчет расстояния

В сравнении с коммерческими аналогами GeoVista показывает конкурентоспособные показатели:

  • Gemini 2.5 Pro: 78,98% на уровне города
  • GPT-5: 67,11% на уровне города
  • Gemini 2.5 Flash: 73,29% на уровне города

По расстоянию 52,83% предсказаний GeoVista оказались в пределах 3 км от реального местоположения со средним отклонением 2,35 км.

Новый бенчмарк GeoBench

Исследователи также представили GeoBench — датасет из 1142 высококачественных изображений из 66 стран и 108 городов, включающий:

  • 512 стандартных фотографий
  • 512 панорам
  • 108 спутниковых снимков

Ключевое отличие от существующих наборов данных — строгая фильтрация: удалены нелокализуемые изображения (крупные планы еды, общие пейзажи) и легко узнаваемые достопримечательности.

Модель, код и бенчмарк доступны на странице проекта. Технология поднимает важные вопросы приватности — теперь практически любое публичное фото может быть точно локализовано с помощью ИИ.