Чилийский Национальный центр искусственного интеллекта (CENIA) возглавил масштабный региональный проект по созданию открытой языковой модели Latam-GPT, предназначенной специально для стран Латинской Америки. Инициатива объединила 33 организации из разных стран региона и уже собрала корпус текстов объемом более 8 ТБ.
Технические характеристики и особенности
Модель Latam-GPT насчитывает 50 миллиардов параметров, что ставит ее в один ряд с коммерческими аналогами уровня GPT-3.5. Особенность проекта — ориентация на культурные и языковые особенности региона, включая различные диалекты и исторический контекст.
База данных для обучения включает документы из 20 латиноамериканских стран и Испании — всего 2 645 500 текстовых материалов. Распределение по странам:
- Бразилия: 685 000 документов
- Мексика: 385 000 документов
- Испания: 325 000 документов
- Колумбия: 220 000 документов
- Аргентина: 210 000 документов
Стратегические цели и перспективы
Директор CENIA Альваро Сото подчеркивает: «Эта работа не может быть выполнена одной группой или одной страной в Латинской Америке: это вызов, требующий участия всех». Проект позиционируется как альтернатива доминированию OpenAI и Google, с акцентом на сотрудничество, а не конкуренцию.
Региональные ИИ-инициативы — это всегда баланс между амбициями и реальностью. 50 миллиардов параметров звучит впечатляюще, но настоящая ценность таких проектов не в размере модели, а в качестве данных и глубине культурного контекста. Вопрос в том, смогут ли они обеспечить достаточную вычислительную мощность для дообучения и поддержки, когда энтузиазм первых месяцев схлынет.
Первоначально модель будет выполнять общие задачи на уровне коммерческих решений, но с расширенными возможностями для латиноамериканской тематики. В перспективе планируется развитие в сторону мультимодальных систем с обработкой изображений и видео.
Открытый характер проекта позволит различным организациям адаптировать Latam-GPT для специфических нужд: образовательных учреждений, здравоохранения, сельского хозяйства и культурных проектов.
По материалам SSBCrack
Оставить комментарий