Оглавление

По сообщению Hugging Face Blog, несмотря на впечатляющие успехи в академических тестах, крупные языковые модели (LLM) демонстрируют фундаментальные слабости в динамичных интерактивных средах. Новый бенчмарк TextQuests, основанный на 25 классических текстовых квестах Infocom (вроде Zork), вскрывает критические ограничения современных моделей в задачах, требующих длительного планирования и адаптивного поведения.

TextQuests

Бенчмарк использует игры, которые у опытных игроков занимают до 30 часов и требуют сотен точных действий. Это создаёт идеальные условия для проверки двух ключевых способностей агентов на базе LLM:

  • Долгосрочное планирование: Анализ растущей истории действий без внешних инструментов
  • Обучение через исследование: Корректировка стратегии на основе ошибок

Примеры разнообразных задач в TextQuests.

Examples showing the diverse reasoning challenges in TextQuests

Методика оценки

Каждая модель тестируется в двух режимах: с подсказками (With Clues) и без (No Clues). Сессия ограничена 500 шагами при полном сохранении контекста (до 100K токенов). Ключевые метрики:

  • Прогресс: Достижение контрольных точек
  • Вред: Фиксация этически сомнительных действий

Производительность LLM в TextQuests.

LLMs performance on TextQuests

Ключевые проблемы

Слабый контекст: При длинных сессиях модели галлюцинируют, путая локации или зацикливаясь. В Wishbringer большинство не смогли спуститься со скалы, хотя решение требовало простого обращения последовательности действий из истории. В лабиринте Zork I все топовые LLM показали провал.

Примеры сбоев.

Examples of long context reasoning failures in TextQuests

Неэффективные вычисления: Рост токенов ведёт к увеличению затрат, но после порога их полезность падает. Многие шаги (например навигация) не требуют глубокого анализа.

Сравнение эффективности токенов.

Comparison of output and reasoning token efficiency across state-of-the-art LLMs on TextQuests

TextQuests — не ностальгия по Infocom, а зеркало для индустрии. Бенчмарк жёстко обнажает разрыв между статичными тестами и реальной агентской работой. Особенно показательны провалы в пространственном мышлении: модели не строят ментальные карты, а тупо копируют шаблоны. Ирония в том, что игры 1980-х остаются неподъёмными для ИИ с триллионами параметров. Пока это сигнал: без архитектурных изменений (не просто масштабирования) истинных агентов не создать. Открытость бенчмарка — правильный ход, но лидерборд заполнят лишь те, кто рискнёт уйти от transformer-ортодоксии.

Исследователи приглашают разработчиков открытых моделей к участию в TextQuests Leaderboard.