Оглавление

Арабские языковые модели долгое время отставали от англоязычных аналогов, несмотря на то, что арабский язык используют более 400 миллионов человек. Jais 2 от G42, MBZUAI и Cerebras Systems меняет эту ситуацию, предлагая семейство моделей, специально разработанных для арабского языка и культуры.

Преодоление культурного разрыва

Западные модели демонстрируют впечатляющий общий интеллект, но они не учитывают арабский культурный контекст, социальные нормы и особенности языка. Особенно заметны проблемы в областях диалектных вариаций, норм вежливости, религиозного и этического мышления — там, где глобальные модели часто неправильно интерпретируют намерения или дают ответы, которые кажутся неестественными местным пользователям.

Jais 2 70B устанавливает новый стандарт производительности для арабских моделей на ключевом бенчмарке AraGen. Модель также лидирует в общих задачах, таких как перевод, суммаризация и финансовый анализ, и превосходит в областях, глубоко укорененных в арабской жизни: поэзия, религия, кулинария и толкование снов.

Технические преимущества

Чат-приложение Jais 2 работает со скоростью 2000 токенов в секунду, что делает его одним из самых быстрых языковых моделей в мире. Модели были обучены с нуля на 2,6 триллиона токенов арабского, английского и кода — примерно в семь раз меньше, чем использовалось для обучения Llama-3 70B.

На графике ниже показано соотношение вычислительных затрат на обучение и производительности на арабском бенчмарке AraGen для различных моделей. Jais 2 8B превосходит все другие арабско-ориентированные модели сравнимого размера, будучи обученной на значительно меньшем объеме данных и, следовательно, гораздо дешевле в обучении.

Сравнение производительности арабских языковых моделей на тесте AraGen в зависимости от вычислительных затрат
Источник: www.cerebras.ai

Архитектура обучения

Обучение Jais 2 моделей проходило на кластерах Condor Galaxy 1 и Condor Galaxy 2, каждый из которых содержит шестьдесят четыре системы Cerebras CS-2, соединенных единой структурой MemoryX и SwarmX. Вместо объединения сотен GPU, потоковая передача весов размещает все параметры модели в едином блоке памяти терабайтного масштаба внутри MemoryX.

Подход с суверенным ИИ становится все более актуальным в мире, где доминируют американские и китайские модели. Jais 2 демонстрирует, что специализированные модели для конкретных культурных контекстов могут конкурировать по качеству, при этом требуя значительно меньше ресурсов. Интересно, что эта модель стала быстрее ChatGPT в 20 раз — впечатляющий результат, особенно учитывая её культурную специфику.

Этапы разработки

Разработка Jais 2 включала пять ключевых этапов:

  1. Предварительное обучение — двухэтапный процесс с использованием 2,6 триллионов токенов
  2. Контролируемое тонкое настройка — более 20 миллионов пар инструкция-ответ для обучения билингвальному следованию инструкциям
  3. Оптимизация прямых предпочтений — улучшение полезности, безопасности и культурной уместности
  4. GRPO-фаза — улучшение когерентности многоходового диалога

Jais 2 общедоступен через веб-приложение, а также мобильные приложения для iOS и Android. Для разработчиков и исследователей команда выпустила модели с открытыми весами 70B и 8B на HuggingFace.

Эта работа представляет собой результат многомесячных скоординированных усилий по разработке, курированию данных и обучению в масштабе между Inception, MBZUAI и Cerebras. Jais 2 служит примером для суверенного ИИ, показывая, как страны могут разрабатывать высококачественные, культурно адаптированные модели с меньшими затратами, более высокой скоростью и без сложностей больших GPU-кластеров.

По материалам Cerebras.