По сообщению Hugging Face, исследователи представили FilBench — первый комплексный набор тестов для оценки языковых моделей (LLM) на филиппинских языках: тагальском, филиппинском (стандартизированная форма тагальского) и себуанском. Это ответ на парадокс: Филиппины занимают четвёртое место в мире по использованию ChatGPT, но системной оценки их языковых возможностей до сих пор не существовало.
Что измеряет FilBench
Бенчмарк оценивает LLM по четырём ключевым направлениям:
- Культурные знания
- Классический NLP (распознавание сущностей, анализ тональности)
- Понимание прочитанного
- Генерация текста
Проект включает открытый код и исследовательскую работу. Сообщество может добавлять свои модели через GitHub.
Результаты тестирования
Протестирована 41 модель. Лидером стала meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 со средним баллом 74.27. Её показатели:
- Классический NLP: 89.03
- Понимание прочитанного: 80.12
- Генерация текста: 54.65
- Культурные знания: 73.29
Наивысшие результаты модель показала в распознавании именованных сущностей (Universal NER — 97.96 для себуанского), худшие — в переводе (Tatoeba — 42.92 для себуанского).
Фокус на «неанглийских» языках — давно назревший тренд. FilBench ценен не только метриками, но и структурой: он включает нишевые датасеты вроде Dengue (медицинские тексты) и KALAHI (социальные программы). Любопытно, что даже топовая модель набрала лишь 54.65 в генерации — это вскрывает миф о «беглом владении» языком через ChatGPT. Бенчмарк станет индикатором реального, а не маркетингового прогресса в мультиязычности ИИ. И да, ждём аналогичные решения для других языков с высокой пользовательской активностью.
Оставить комментарий