Исследование объяснило, почему крупные LLM обучаются лучше, чем небольшие модели
Долгое время считалось, что чем больше параметров в нейросети, тем она умнее. Новое исследование объясняет, что дело не только в абстрактной «мощности», а в способности модели справляться с внутренним шумом при усвоении редких данных.