Оглавление
Современные языковые модели демонстрируют впечатляющие результаты на стандартных тестах, но могут ли они действительно мыслить как профессионалы уровня PhD или MBA? Этот вопрос стал центральным в новом бенчмарке ProfBench, который NVIDIA интегрировала в свой SDK NeMo Evaluator.
Что такое ProfBench?
ProfBench — это специализированный эталон для оценки языковых моделей на сложных, открытых задачах, требующих профессиональных знаний. В отличие от традиционных тестов с короткими ответами, здесь модели сталкиваются с многостраничными заданиями, аналогичными реальной работе экспертов.
Датасет содержит более 7000 пар «ответ-критерий» в четырех областях экспертизы:
- Финансы MBA
- Консалтинг MBA
- Химия PhD
- Физика PhD
Примеры реальных задач
В сфере финансов MBA модель получает задание проанализировать International Finance Facility for Immunization (IFFIm) и его использование секьюритизации для финансирования альянса вакцин GAVI. Требуется:
- Проанализировать историю IFFIm
- Детализировать технические аспекты, факторы успеха и риски
- Оценить возможность использования IFFIm как «шаблона» для других инициатив
- Определить 3-5 организаций, которые могли бы использовать подобную модель
- Представить анализ в стиле инвестиционного меморандума
В химии PhD задания включают сложные расчеты титрования смеси кислот с точными требованиями к вычислениям концентраций и pH.
Особенности системы оценки

Источник: huggingface.co
Fig 1. Распределение рубрик по категориям и подкатегориям.
Оценка в ProfBench строится не на простом сравнении ответов, а на трех ключевых измерениях:
- Извлечение информации: Корректность данных и деталей
- Рассуждение: Логическая обоснованность, математическая точность
- Стиль: Четкость изложения и соответствие формату
Для финансового MBA критерии включают такие пункты как: «Указывает, что нарушение ликвидной политики IFFIm может негативно повлиять на его кредитный рейтинг» или «Представляет выводы ясно для эффективного использования».
В химии оценивается точность вычислений с допустимыми погрешностями, например: «Определяет объем титранта NaOH для достижения pH 7.0 как 0.11938 ± 0.001 л».
Создание эталона экспертами
ProfBench разрабатывался самими профессионалами, которых он призван оценивать. В создании участвовали 38 специалистов из 8 стран, обладающих PhD, MBA или эквивалентным опытом работы в соответствующих областях.
Интересно наблюдать, как индустрия постепенно переходит от тестирования «эрудиции» моделей к оценке их профессиональной компетентности. ProfBench — это важный шаг в сторону реальных бизнес-применений, где недостаточно просто знать факты, нужно уметь их анализировать и применять в сложных контекстах. Правда, остается открытым вопрос, насколько такие тесты действительно предсказывают успешность моделей в реальных рабочих процессах, а не просто создают еще один искусственный барьер для прохождения.
Новый эталон доступен непосредственно в NVIDIA NeMo Evaluator SDK, который предоставляет масштабируемый и воспроизводимый способ запуска сотен бенчмарков на основе популярных систем оценки.
Источник новости: Hugging Face
Оставить комментарий