Долгое время считалось, что чем больше параметров в нейросети, тем она умнее. Новое исследование объясняет, что дело не только в абстрактной «мощности», а в способности модели справляться с внутренним шумом при усвоении редких данных.
Японские исследователи представили ADASPEC — технологию, ускоряющую работу языковых моделей в многоязычном режиме за счет адаптивных словарей и самообучающихся моделей-черновиков.
Искусственный интеллект становится ключевым инструментом в руках историков, позволяя расшифровывать многовековые документы и восстанавливать утраченные тексты.
Ученые выяснили, что соответствие нейросетей паттернам человеческого мозга продиктовано составом обучающих данных, опровергнув теорию об особом преимуществе английского языка в архитектурах ИИ.
Исследователи ByteDance представили модель MMProLong, которая обходит конкурентов благодаря новой стратегии обучения на длинных документах через вопросы и ответы.
Компания Nous Research представила метод Token Superposition Training, позволяющий ускорить предварительное обучение LLM до 2,5 раз за счет работы с пакетами токенов.