Оглавление

Современные языковые модели демонстрируют впечатляющие результаты на стандартных тестах, но могут ли они действительно мыслить как профессионалы уровня PhD или MBA? Этот вопрос стал центральным в новом бенчмарке ProfBench, который NVIDIA интегрировала в свой SDK NeMo Evaluator.

Что такое ProfBench?

ProfBench — это специализированный эталон для оценки языковых моделей на сложных, открытых задачах, требующих профессиональных знаний. В отличие от традиционных тестов с короткими ответами, здесь модели сталкиваются с многостраничными заданиями, аналогичными реальной работе экспертов.

Датасет содержит более 7000 пар «ответ-критерий» в четырех областях экспертизы:

  • Финансы MBA
  • Консалтинг MBA
  • Химия PhD
  • Физика PhD

Примеры реальных задач

В сфере финансов MBA модель получает задание проанализировать International Finance Facility for Immunization (IFFIm) и его использование секьюритизации для финансирования альянса вакцин GAVI. Требуется:

  1. Проанализировать историю IFFIm
  2. Детализировать технические аспекты, факторы успеха и риски
  3. Оценить возможность использования IFFIm как «шаблона» для других инициатив
  4. Определить 3-5 организаций, которые могли бы использовать подобную модель
  5. Представить анализ в стиле инвестиционного меморандума

В химии PhD задания включают сложные расчеты титрования смеси кислот с точными требованиями к вычислениям концентраций и pH.

Особенности системы оценки

Диаграмма распределения рубрик категорий ProfBench

Источник: huggingface.co

Fig 1. Распределение рубрик по категориям и подкатегориям.

Оценка в ProfBench строится не на простом сравнении ответов, а на трех ключевых измерениях:

  • Извлечение информации: Корректность данных и деталей
  • Рассуждение: Логическая обоснованность, математическая точность
  • Стиль: Четкость изложения и соответствие формату

Для финансового MBA критерии включают такие пункты как: «Указывает, что нарушение ликвидной политики IFFIm может негативно повлиять на его кредитный рейтинг» или «Представляет выводы ясно для эффективного использования».

В химии оценивается точность вычислений с допустимыми погрешностями, например: «Определяет объем титранта NaOH для достижения pH 7.0 как 0.11938 ± 0.001 л».

Создание эталона экспертами

ProfBench разрабатывался самими профессионалами, которых он призван оценивать. В создании участвовали 38 специалистов из 8 стран, обладающих PhD, MBA или эквивалентным опытом работы в соответствующих областях.

Интересно наблюдать, как индустрия постепенно переходит от тестирования «эрудиции» моделей к оценке их профессиональной компетентности. ProfBench — это важный шаг в сторону реальных бизнес-применений, где недостаточно просто знать факты, нужно уметь их анализировать и применять в сложных контекстах. Правда, остается открытым вопрос, насколько такие тесты действительно предсказывают успешность моделей в реальных рабочих процессах, а не просто создают еще один искусственный барьер для прохождения.

Новый эталон доступен непосредственно в NVIDIA NeMo Evaluator SDK, который предоставляет масштабируемый и воспроизводимый способ запуска сотен бенчмарков на основе популярных систем оценки.

Источник новости: Hugging Face