Cerebras представила Implicit Chain Transformer — архитектуру, решающую проблему отсутствия памяти у языковых моделей. Новая модель передает «вектор намерения» между токенами, что позволяет эффективно поддерживать состояние в задачах вроде сложения по модулю и обхода графа.
Открытие гетерогенных особенностей в механизме внимания RoPE-моделей: разные измерения отвечают за различные аспекты обработки длинного контекста.
NVIDIA представила модель Nemotron-PII для автоматического обнаружения и удаления персональных данных из обучающих наборов ИИ с точностью более 90%.
Ллион Джонс, соавтор архитектуры трансформеров, заявил о кризисе креативности в ИИ-исследованиях из-за чрезмерной концентрации на одном подходе.
Новая архитектура Reactive Transformer предлагает динамическую адаптацию к контексту, потенциально улучшая эффективность языковых моделей при сохранении качества.
ОАЭ выпустили компактную языковую модель Jais-LM с продвинутыми способностями к логическому мышлению и поддержкой арабского языка.