FilBench: Оценка языковых моделей для филиппинских языков

Hugging Face представил FilBench — первый бенчмарк для оценки LLM на филиппинских языках. Тестирование 41 модели выявило лидеров и слабые места, особенно в генерации текста.

Оглавление

Что измеряет FilBench
Результаты тестирования

По сообщению Hugging Face, исследователи представили FilBench — первый комплексный набор тестов для оценки языковых моделей (LLM) на филиппинских языках: тагальском, филиппинском (стандартизированная форма тагальского) и себуанском. Это ответ на парадокс: Филиппины занимают четвёртое место в мире по использованию ChatGPT, но системной оценки их языковых возможностей до сих пор не существовало.

Что измеряет FilBench

Бенчмарк оценивает LLM по четырём ключевым направлениям:

Культурные знания
Классический NLP (распознавание сущностей, анализ тональности)
Понимание прочитанного
Генерация текста

Проект включает открытый код и исследовательскую работу. Сообщество может добавлять свои модели через GitHub.

Результаты тестирования

Протестирована 41 модель. Лидером стала meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 со средним баллом 74.27. Её показатели:

Классический NLP: 89.03
Понимание прочитанного: 80.12
Генерация текста: 54.65
Культурные знания: 73.29

Наивысшие результаты модель показала в распознавании именованных сущностей (Universal NER — 97.96 для себуанского), худшие — в переводе (Tatoeba — 42.92 для себуанского).

Фокус на «неанглийских» языках — давно назревший тренд. FilBench ценен не только метриками, но и структурой: он включает нишевые датасеты вроде Dengue (медицинские тексты) и KALAHI (социальные программы). Любопытно, что даже топовая модель набрала лишь 54.65 в генерации — это вскрывает миф о «беглом владении» языком через ChatGPT. Бенчмарк станет индикатором реального, а не маркетингового прогресса в мультиязычности ИИ. И да, ждём аналогичные решения для других языков с высокой пользовательской активностью.

Новости

FilBench: бенчмарк для оценки языковых моделей теперь понимает филиппинские языки

Что измеряет FilBench

Результаты тестирования

Еще интереснее

Языковые модели научились рассуждать на языке пользователя без потери точности

Thomson Reuters запускает платформу для бескодового ИИ на Amazon Bedrock

Notion перестроил архитектуру под агентный ИИ с GPT-5

Исследование показало, что вычислить ИИ-ботов в соцсетях можно по излишней вежливости

Оставить комментарий