Оглавление

По сообщению Hugging Face, исследователи представили FilBench — первый комплексный набор тестов для оценки языковых моделей (LLM) на филиппинских языках: тагальском, филиппинском (стандартизированная форма тагальского) и себуанском. Это ответ на парадокс: Филиппины занимают четвёртое место в мире по использованию ChatGPT, но системной оценки их языковых возможностей до сих пор не существовало.

Что измеряет FilBench

Бенчмарк оценивает LLM по четырём ключевым направлениям:

  • Культурные знания
  • Классический NLP (распознавание сущностей, анализ тональности)
  • Понимание прочитанного
  • Генерация текста

Проект включает открытый код и исследовательскую работу. Сообщество может добавлять свои модели через GitHub.

Результаты тестирования

Протестирована 41 модель. Лидером стала meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 со средним баллом 74.27. Её показатели:

  • Классический NLP: 89.03
  • Понимание прочитанного: 80.12
  • Генерация текста: 54.65
  • Культурные знания: 73.29

Наивысшие результаты модель показала в распознавании именованных сущностей (Universal NER — 97.96 для себуанского), худшие — в переводе (Tatoeba — 42.92 для себуанского).

Фокус на «неанглийских» языках — давно назревший тренд. FilBench ценен не только метриками, но и структурой: он включает нишевые датасеты вроде Dengue (медицинские тексты) и KALAHI (социальные программы). Любопытно, что даже топовая модель набрала лишь 54.65 в генерации — это вскрывает миф о «беглом владении» языком через ChatGPT. Бенчмарк станет индикатором реального, а не маркетингового прогресса в мультиязычности ИИ. И да, ждём аналогичные решения для других языков с высокой пользовательской активностью.