Архивы Transformer

Cerebras создала Implicit Chain Transformer

Cerebras создала новую архитектуру нейросетей, чтобы решить проблему памяти у LLM

Cerebras представила Implicit Chain Transformer — архитектуру, решающую проблему отсутствия памяти у языковых моделей. Новая модель передает «вектор намерения» между токенами, что позволяет эффективно поддерживать состояние в задачах вроде сложения по модулю и обхода графа.

Гетерогенные особенности внимания в RoPE-моделях с длинным контекстом

Открытие гетерогенных особенностей в механизме внимания RoPE-моделей: разные измерения отвечают за различные аспекты обработки длинного контекста.

NVIDIA представила ИИ-модель для поиска и удаления персональных данных

NVIDIA представила модель Nemotron-PII для автоматического обнаружения и удаления персональных данных из обучающих наборов ИИ с точностью более 90%.

Создатель трансформеров признался в усталости от собственного изобретения

Ллион Джонс, соавтор архитектуры трансформеров, заявил о кризисе креативности в ИИ-исследованиях из-за чрезмерной концентрации на одном подходе.

Представлена новая архитектура Reactive Transformer для языковых моделей

Новая архитектура Reactive Transformer предлагает динамическую адаптацию к контексту, потенциально улучшая эффективность языковых моделей при сохранении качества.

В ОАЭ выпустили компактную языковую модель с продвинутыми способностями к логическому мышлению

ОАЭ выпустили компактную языковую модель Jais-LM с продвинутыми способностями к логическому мышлению и поддержкой арабского языка.

Новости

Transformer