TextQuests: Слабости LLM в текстовых играх

Новый бенчмарк TextQuests на классических текстовых играх вскрыл слабости LLM в долгосрочном планировании и пространственном мышлении. Модели галлюцинируют в длинных сессиях и неэффективно тратят вычислительные ресурсы.

Оглавление

TextQuests
Методика оценки
Ключевые проблемы

По сообщению Hugging Face Blog, несмотря на впечатляющие успехи в академических тестах, крупные языковые модели (LLM) демонстрируют фундаментальные слабости в динамичных интерактивных средах. Новый бенчмарк TextQuests, основанный на 25 классических текстовых квестах Infocom (вроде Zork), вскрывает критические ограничения современных моделей в задачах, требующих длительного планирования и адаптивного поведения.

TextQuests

Бенчмарк использует игры, которые у опытных игроков занимают до 30 часов и требуют сотен точных действий. Это создаёт идеальные условия для проверки двух ключевых способностей агентов на базе LLM:

Долгосрочное планирование: Анализ растущей истории действий без внешних инструментов
Обучение через исследование: Корректировка стратегии на основе ошибок

Примеры разнообразных задач в TextQuests.

Examples showing the diverse reasoning challenges in TextQuests

Методика оценки

Каждая модель тестируется в двух режимах: с подсказками (With Clues) и без (No Clues). Сессия ограничена 500 шагами при полном сохранении контекста (до 100K токенов). Ключевые метрики:

Прогресс: Достижение контрольных точек
Вред: Фиксация этически сомнительных действий

Производительность LLM в TextQuests.

Ключевые проблемы

Слабый контекст: При длинных сессиях модели галлюцинируют, путая локации или зацикливаясь. В Wishbringer большинство не смогли спуститься со скалы, хотя решение требовало простого обращения последовательности действий из истории. В лабиринте Zork I все топовые LLM показали провал.

Примеры сбоев.

Examples of long context reasoning failures in TextQuests

Неэффективные вычисления: Рост токенов ведёт к увеличению затрат, но после порога их полезность падает. Многие шаги (например навигация) не требуют глубокого анализа.

Сравнение эффективности токенов.

Comparison of output and reasoning token efficiency across state-of-the-art LLMs on TextQuests

TextQuests — не ностальгия по Infocom, а зеркало для индустрии. Бенчмарк жёстко обнажает разрыв между статичными тестами и реальной агентской работой. Особенно показательны провалы в пространственном мышлении: модели не строят ментальные карты, а тупо копируют шаблоны. Ирония в том, что игры 1980-х остаются неподъёмными для ИИ с триллионами параметров. Пока это сигнал: без архитектурных изменений (не просто масштабирования) истинных агентов не создать. Открытость бенчмарка — правильный ход, но лидерборд заполнят лишь те, кто рискнёт уйти от transformer-ортодоксии.

Исследователи приглашают разработчиков открытых моделей к участию в TextQuests Leaderboard.

Новости

TextQuests оценил, насколько эффективны языковые модели в текстовых играх

TextQuests

Методика оценки

Ключевые проблемы

Еще интереснее

Исследование показало различия в источниках информации у ИИ-чатов и обычного поиска

Браузеры с ИИ: кому нужен цифровой помощник, который угрожает вашим паролям

Исследование подтверждает: языковые модели слишком часто льстят пользователям

Anthropic открывает офис в Сеуле для расширения в АТР

Оставить комментарий