Cerebras представила Implicit Chain Transformer — архитектуру, решающую проблему отсутствия памяти у языковых моделей. Новая модель передает «вектор намерения» между токенами, что позволяет эффективно поддерживать состояние в задачах вроде сложения по модулю и обхода графа.
Корейский стартап Motif опубликовал отчет с воспроизводимым рецептом обучения LLM, раскрывая четыре практических урока для корпоративных команд: от выравнивания данных до оптимизации памяти.
Главный научный сотрудник Meta Янн Лекун в споре с DeepMind объяснил, почему большие языковые модели — тупиковый путь к AGI.
2025 год стал переломным для индустрии ИИ: хайп сменился прагматизмом, внедрение в бизнесе тормозится, а технологические прорывы становятся менее заметными.
NVIDIA анонсировала Nemotron 3 Nano — компактную языковую модель с гибридной архитектурой Mamba-Transformer MoE и контекстом в 1 млн токенов, предназначенную для создания эффективных ИИ-агентов.
Nvidia укрепляет позиции в open-source AI, купив разработчика системы управления задачами Slurm и выпустив семейство моделей Nemotron 3 для создания эффективных AI-агентов.