ProfBench: NVIDIA оценивает профессиональное мышление языковых моделей

NVIDIA представила ProfBench — специализированный эталон для оценки языковых моделей на профессиональных задачах уровня PhD и MBA с фокусом на анализ, рассуждение и стиль изложения.

Оглавление

Что такое ProfBench?
Примеры реальных задач
Особенности системы оценки
Создание эталона экспертами

Современные языковые модели демонстрируют впечатляющие результаты на стандартных тестах, но могут ли они действительно мыслить как профессионалы уровня PhD или MBA? Этот вопрос стал центральным в новом бенчмарке ProfBench, который NVIDIA интегрировала в свой SDK NeMo Evaluator.

Что такое ProfBench?

ProfBench — это специализированный эталон для оценки языковых моделей на сложных, открытых задачах, требующих профессиональных знаний. В отличие от традиционных тестов с короткими ответами, здесь модели сталкиваются с многостраничными заданиями, аналогичными реальной работе экспертов.

Датасет содержит более 7000 пар «ответ-критерий» в четырех областях экспертизы:

Финансы MBA
Консалтинг MBA
Химия PhD
Физика PhD

Примеры реальных задач

В сфере финансов MBA модель получает задание проанализировать International Finance Facility for Immunization (IFFIm) и его использование секьюритизации для финансирования альянса вакцин GAVI. Требуется:

Проанализировать историю IFFIm
Детализировать технические аспекты, факторы успеха и риски
Оценить возможность использования IFFIm как «шаблона» для других инициатив
Определить 3-5 организаций, которые могли бы использовать подобную модель
Представить анализ в стиле инвестиционного меморандума

В химии PhD задания включают сложные расчеты титрования смеси кислот с точными требованиями к вычислениям концентраций и pH.

Особенности системы оценки

Диаграмма распределения рубрик категорий ProfBench

Источник: huggingface.co

Fig 1. Распределение рубрик по категориям и подкатегориям.

Оценка в ProfBench строится не на простом сравнении ответов, а на трех ключевых измерениях:

Извлечение информации: Корректность данных и деталей
Рассуждение: Логическая обоснованность, математическая точность
Стиль: Четкость изложения и соответствие формату

Для финансового MBA критерии включают такие пункты как: «Указывает, что нарушение ликвидной политики IFFIm может негативно повлиять на его кредитный рейтинг» или «Представляет выводы ясно для эффективного использования».

В химии оценивается точность вычислений с допустимыми погрешностями, например: «Определяет объем титранта NaOH для достижения pH 7.0 как 0.11938 ± 0.001 л».

Создание эталона экспертами

ProfBench разрабатывался самими профессионалами, которых он призван оценивать. В создании участвовали 38 специалистов из 8 стран, обладающих PhD, MBA или эквивалентным опытом работы в соответствующих областях.

Интересно наблюдать, как индустрия постепенно переходит от тестирования «эрудиции» моделей к оценке их профессиональной компетентности. ProfBench — это важный шаг в сторону реальных бизнес-применений, где недостаточно просто знать факты, нужно уметь их анализировать и применять в сложных контекстах. Правда, остается открытым вопрос, насколько такие тесты действительно предсказывают успешность моделей в реальных рабочих процессах, а не просто создают еще один искусственный барьер для прохождения.

Новый эталон доступен непосредственно в NVIDIA NeMo Evaluator SDK, который предоставляет масштабируемый и воспроизводимый способ запуска сотен бенчмарков на основе популярных систем оценки.

Источник новости: Hugging Face

Новости

NVIDIA представила ProfBench — эталон для оценки профессионального мышления LLM

Что такое ProfBench?

Примеры реальных задач

Особенности системы оценки

Создание эталона экспертами

Еще интереснее

В Google придумали, обновлять убеждения LLM при получении новой информации

OpenAI представила GPT-5.4: агентная автономность и прямой контроль интерфейсов

Институт Аллена выпустил новую версию гибридной модели Olmo Hybrid 7B

ИИ от Meta* не ограничивается только Llama: что известно про проекты Mango и Avocado

Оставить комментарий