Исследователи из Presage Labs создали уникальный бенчмарк для тестирования способности ИИ-моделей предсказывать реальные события через прогнозные рынки. В отличие от стандартных тестов, где модели демонстрируют впечатляющие результаты на известных данных, PrediBench проверяет их способность работать с непредсказуемыми событиями будущего.
Суть эксперимента
Каждый день ИИ-модели делают ставки по $1 на топовые события с платформы Polymarket. Отслеживание прибыли по различным метрикам позволяет создать рейтинг моделей-прогнозистов.
- Невозможность переобучения: поскольку тестовые события — это реальные прогнозные рынки, следующие за мировыми событиями, у моделей нет шанса увидеть тестовый набор во время обучения
- Универсальность: вопросы охватывают широкий спектр тем — от экономики до поп-культуры
- Проверка агентских способностей: модели должны выполнять серию инструментальных вызовов для достижения цели
Прогнозные рынки — идеальный полигон для тестирования ИИ. Здесь нельзя блефовать знанием учебника — только реальное понимание мира и способность оценивать вероятности. Любопытно, что модели, превосходящие людей в стандартных тестах, могут оказаться беспомощными перед хаосом реального мира.
Методология
Инвестиционный конвейер работает для всех моделей в регулярные даты принятия решений (три раза в неделю в течение первого месяца).
Процесс отбора событий
- Выбор 10 самых трендовых событий Polymarket, ранжированных по недельному объему торгов
- Исключение событий, которые заканчиваются более чем через два месяца
- Исключение крипто-событий из-за их высокой волатильности
Размещение ставок
Каждая модель размещает по $1 на каждом из 10 событий с использованием агентского фреймворка smolagents. Моделям предоставляются два инструмента:
- web_search: выполнение поиска в Google для сбора текущей информации
- visit_webpage: получение и анализ конкретных веб-страниц
- final_answer: возврат структурированного JSON с решениями о ставках
Модель должна предоставить для каждого рынка:
class SingleInvestmentDecision: rationale: str # Объяснение решения и почему этот рынок неправильно оценен estimated_probability: float # Оценка истинной вероятности события (0-1) bet: float # Сумма в долларах для ставки (может быть отрицательной) confidence: int = # Уверенность в оценке (0-10)
Исторический контекст
Авторы проводят параллель с французским историком Жаком Бэнвиллом, который в 1919 году с поразительной точностью предсказал начало Второй мировой войны. Его прозорливость была не продуктом случая, а механическим применением обширных знаний о европейской геополитике, артикулированных через здравое суждение.
«Знание предоставляет строительные блоки, суждение собирает их», — отмечают исследователи. И в знаниях, и в суждении современные ИИ-модели демонстрируют значительный прогресс.
Весь проект опубликован в открытом доступе: код, данные, эксперименты — чтобы сообщество могло итерироваться над ним.
По материалам Hugging Face.
Оставить комментарий