Оглавление

Исследователи из Presage Labs создали уникальный бенчмарк для тестирования способности ИИ-моделей предсказывать реальные события через прогнозные рынки. В отличие от стандартных тестов, где модели демонстрируют впечатляющие результаты на известных данных, PrediBench проверяет их способность работать с непредсказуемыми событиями будущего.

Суть эксперимента

Каждый день ИИ-модели делают ставки по $1 на топовые события с платформы Polymarket. Отслеживание прибыли по различным метрикам позволяет создать рейтинг моделей-прогнозистов.

  • Невозможность переобучения: поскольку тестовые события — это реальные прогнозные рынки, следующие за мировыми событиями, у моделей нет шанса увидеть тестовый набор во время обучения
  • Универсальность: вопросы охватывают широкий спектр тем — от экономики до поп-культуры
  • Проверка агентских способностей: модели должны выполнять серию инструментальных вызовов для достижения цели

Прогнозные рынки — идеальный полигон для тестирования ИИ. Здесь нельзя блефовать знанием учебника — только реальное понимание мира и способность оценивать вероятности. Любопытно, что модели, превосходящие людей в стандартных тестах, могут оказаться беспомощными перед хаосом реального мира.

Методология

Инвестиционный конвейер работает для всех моделей в регулярные даты принятия решений (три раза в неделю в течение первого месяца).

Процесс отбора событий

  1. Выбор 10 самых трендовых событий Polymarket, ранжированных по недельному объему торгов
  2. Исключение событий, которые заканчиваются более чем через два месяца
  3. Исключение крипто-событий из-за их высокой волатильности

Размещение ставок

Каждая модель размещает по $1 на каждом из 10 событий с использованием агентского фреймворка smolagents. Моделям предоставляются два инструмента:

  • web_search: выполнение поиска в Google для сбора текущей информации
  • visit_webpage: получение и анализ конкретных веб-страниц
  • final_answer: возврат структурированного JSON с решениями о ставках

Модель должна предоставить для каждого рынка:

class SingleInvestmentDecision:
 rationale: str # Объяснение решения и почему этот рынок неправильно оценен
 estimated_probability: float # Оценка истинной вероятности события (0-1)
 bet: float # Сумма в долларах для ставки (может быть отрицательной)
 confidence: int = # Уверенность в оценке (0-10)

Исторический контекст

Авторы проводят параллель с французским историком Жаком Бэнвиллом, который в 1919 году с поразительной точностью предсказал начало Второй мировой войны. Его прозорливость была не продуктом случая, а механическим применением обширных знаний о европейской геополитике, артикулированных через здравое суждение.

«Знание предоставляет строительные блоки, суждение собирает их», — отмечают исследователи. И в знаниях, и в суждении современные ИИ-модели демонстрируют значительный прогресс.

Весь проект опубликован в открытом доступе: код, данные, эксперименты — чтобы сообщество могло итерироваться над ним.

По материалам Hugging Face.