Оглавление
Команда исследователей из Китая представила GeoVista — открытую модель искусственного интеллекта, которая определяет местоположение по фотографиям с точностью, сравнимой с ведущими коммерческими решениями. Система сочетает визуальный анализ с поиском в интернете в реальном времени, сообщает The Decoder.

Архитектура и принцип работы
Разработанная совместно Tencent и несколькими университетами, модель использует два основных инструмента:
- Функция увеличения — позволяет детально изучать конкретные области изображения
- Поисковый инструмент — извлекает до десяти релевантных источников из платформ типа Tripadvisor, Instagram, Facebook, Pinterest и Wikipedia
GeoVista автоматически решает, когда применять каждый из инструментов, что отличает её от моделей вроде Mini-o3 или DeepEyes от ByteDance, которые фокусируются на манипуляциях с изображениями.

Двухэтапное обучение модели
Система построена на базе Qwen2.5-VL-7B-Instruct и обучалась в два этапа:
- Контролируемое обучение — 2000 примеров для базового мышления и использования инструментов
- Обучение с подкреплением — 12 000 примеров с кастомной системой вознаграждений
Система вознаграждения была настроена на географическую точность: правильные ответы на уровне города получали более высокие баллы, чем на уровне провинции или страны.
Особенно впечатляет подход с многоуровневой системой вознаграждений — это технически грамотное решение, которое заставляет модель реально учиться различать важность деталей. Фактически, исследователи создали ИИ, который понимает разницу между «это где-то в Италии» и «это конкретная площадь в Риме». И самое главное — всё это теперь доступно в открытом доступе, что может серьёзно изменить расстановку сил на рынке геолокационных сервисов.
Результаты тестирования
На собственном датасете GeoBench модель показала впечатляющие результаты:
- Точность на уровне страны: 92,64%
- Точность на уровне провинции: 79,60%
- Точность на уровне города: 72,68%
Лучшие результаты достигнуты на панорамах (79,49%) и стандартных фото (72,27%), тогда как спутниковые изображения остаются самой сложной задачей (44,92%).

В сравнении с коммерческими аналогами GeoVista показывает конкурентоспособные показатели:
- Gemini 2.5 Pro: 78,98% на уровне города
- GPT-5: 67,11% на уровне города
- Gemini 2.5 Flash: 73,29% на уровне города
По расстоянию 52,83% предсказаний GeoVista оказались в пределах 3 км от реального местоположения со средним отклонением 2,35 км.
Новый бенчмарк GeoBench
Исследователи также представили GeoBench — датасет из 1142 высококачественных изображений из 66 стран и 108 городов, включающий:
- 512 стандартных фотографий
- 512 панорам
- 108 спутниковых снимков
Ключевое отличие от существующих наборов данных — строгая фильтрация: удалены нелокализуемые изображения (крупные планы еды, общие пейзажи) и легко узнаваемые достопримечательности.
Модель, код и бенчмарк доступны на странице проекта. Технология поднимает важные вопросы приватности — теперь практически любое публичное фото может быть точно локализовано с помощью ИИ.
Оставить комментарий