Популярность контента в социальных сетях далеко не всегда коррелирует с его интеллектуальной ценностью, и, как выяснилось, это становится серьезной проблемой для искусственного интеллекта. Согласно материалу издания Let’s Data Science, новое исследование на базе архива arXiv под названием LLMs Can Get ‘Brain Rot’: A Pilot Study on Twitter/X подтверждает: дообучение больших языковых моделей на шумных данных из соцсетей ведет к заметной деградации их когнитивных способностей.
Исследователи провели контролируемый эксперимент, используя четыре модели LLM и два метода оценки данных: по уровню вовлеченности аудитории и по семантическому качеству. Результаты оказались неутешительными для адептов обучения на «живом» интернет-языке. При увеличении доли низкокачественного контента из Twitter до 100% показатели моделей в сложных тестах, таких как ARC-Challenge, обрушились с 72,1 до 57,2 пункта.
Механика регресса и «эффект коротких мыслей»
Одной из самых тревожных находок стал феномен, который можно назвать «пропуском мыслей». Модели, подвергшиеся влиянию специфического контента соцсетей, начинают сокращать или вовсе игнорировать промежуточные этапы в логических цепочках. Это напрямую портит работу алгоритмов Chain-of-Thought (цепочки рассуждений), которые критически важны для решения математических и логических задач.
Технически это выглядит как постепенное снижение качества ответов в зависимости от «дозы» потребленного информационного мусора. В тесте RULER-CWE, проверяющем работу с длинным контекстом, падение составило почти 40% — с 83,7 до 52,3. Это напоминает ситуацию, когда привычка к коротким постам и мемам мешает человеку сосредоточиться на чтении серьезной литературы, только в случае с ИИ этот процесс поддается точным математическим измерениям.
Попытки исправить ситуацию с помощью последующей настройки инструкций (instruction tuning) или обучения на «чистых» данных приносят лишь частичный успех. Исследователи отмечают наличие персистентного репрезентативного дрейфа. Это означает, что нейросеть не просто забывает навыки, а фундаментально меняет свою внутреннюю структуру представлений, и полностью вернуть ее в исходное «здоровое» состояние практически невозможно.
Похоже, мы создаем системы, которые умеют дерзко отвечать в комментариях, но скоро окончательно разучатся доказывать теоремы. Без жесткой фильтрации данных по смыслу, а не по лайкам, отрасль рискует получить поколение «глупых» моделей в блестящей упаковке.
Рекомендации для разработчиков
Ситуация требует пересмотра подходов к кураторству датасетов. Если раньше основное внимание уделялось фильтрации токсичности или грамматических ошибок, то теперь на первый план выходит борьба с деградацией логики. Специалисты рекомендуют внедрять регулярные «когнитивные проверки» (cognitive health checks) на каждом этапе дообучения моделей, особенно если используются потоковые данные из веба.
Для индустрии это важный сигнал: бездумное поглощение пользовательского контента превращает мощные инструменты в цифровые аналоги генераторов случайных фраз. Пока неясно, могут ли специфические архитектуры нейросетей или новые методы оптимизации снизить эту восприимчивость, но на текущий момент «интеллектуальная гигиена» данных остается единственным надежным способом сохранить разум ИИ в целости.
Оставить комментарий