Оглавление

Чилийский Национальный центр искусственного интеллекта (CENIA) возглавил масштабный региональный проект по созданию открытой языковой модели Latam-GPT, предназначенной специально для стран Латинской Америки. Инициатива объединила 33 организации из разных стран региона и уже собрала корпус текстов объемом более 8 ТБ.

Технические характеристики и особенности

Модель Latam-GPT насчитывает 50 миллиардов параметров, что ставит ее в один ряд с коммерческими аналогами уровня GPT-3.5. Особенность проекта — ориентация на культурные и языковые особенности региона, включая различные диалекты и исторический контекст.

База данных для обучения включает документы из 20 латиноамериканских стран и Испании — всего 2 645 500 текстовых материалов. Распределение по странам:

  • Бразилия: 685 000 документов
  • Мексика: 385 000 документов
  • Испания: 325 000 документов
  • Колумбия: 220 000 документов
  • Аргентина: 210 000 документов

Стратегические цели и перспективы

Директор CENIA Альваро Сото подчеркивает: «Эта работа не может быть выполнена одной группой или одной страной в Латинской Америке: это вызов, требующий участия всех». Проект позиционируется как альтернатива доминированию OpenAI и Google, с акцентом на сотрудничество, а не конкуренцию.

Региональные ИИ-инициативы — это всегда баланс между амбициями и реальностью. 50 миллиардов параметров звучит впечатляюще, но настоящая ценность таких проектов не в размере модели, а в качестве данных и глубине культурного контекста. Вопрос в том, смогут ли они обеспечить достаточную вычислительную мощность для дообучения и поддержки, когда энтузиазм первых месяцев схлынет.

Первоначально модель будет выполнять общие задачи на уровне коммерческих решений, но с расширенными возможностями для латиноамериканской тематики. В перспективе планируется развитие в сторону мультимодальных систем с обработкой изображений и видео.

Открытый характер проекта позволит различным организациям адаптировать Latam-GPT для специфических нужд: образовательных учреждений, здравоохранения, сельского хозяйства и культурных проектов.

По материалам SSBCrack