Оглавление

Компания OpenAI анонсировала запуск специализированного бенчмарка IndQA, предназначенного для оценки способностей искусственного интеллекта понимать культурные и языковые особенности Индии. Это первый крупномасштабный проект такого рода, созданный в партнерстве с 261 местным экспертом.

Проблема существующих подходов

Современные мультиязычные бенчмарки вроде MMMLU достигли насыщения — топовые модели показывают близкие к максимуму результаты, что делает их менее полезными для измерения реального прогресса. Более того, существующие подходы в основном фокусируются на переводе или задачах с множественным выбором, игнорируя культурный контекст, историю и повседневные реалии, которые действительно важны для пользователей.

Индия была выбрана в качестве отправной точки не случайно: около миллиарда человек в стране не используют английский как основной язык, при этом ChatGPT занимает второе место по популярности на этом рынке.

Архитектура IndQA

Новый бенчмарк включает 2 278 вопросов на 12 языках, охватывающих 10 культурных доменов: архитектура и дизайн, искусство и культура, повседневная жизнь, еда и кулинария, история, право и этика, литература и лингвистика, медиа и развлечения, религия и духовность, спорт и отдых.

Особенность подхода — использование рубричной системы оценки. Каждый ответ проверяется по критериям, разработанным экспертами для конкретного вопроса, с учетом весовых коэффициентов важности. Итоговая оценка представляет собой сумму баллов за выполненные критерии.

Методология разработки

  • Экспертные вопросы: Специалисты из разных регионов Индии создавали сложные, требующие рассуждения задания
  • Адверсариальная фильтрация: Сохранялись только те вопросы, с которыми не справлялись GPT-4o, OpenAI o3, GPT-4.5 и GPT-5
  • Детальные критерии: Для каждого вопроса разрабатывалась система оценки, аналогичная экзаменационным рубрикам
  • Идеальные ответы: Эксперты предоставляли эталонные решения и английские переводы

Примеры вопросов

Литература и лингвистика

«Как автор романа «Дандак Тхеке Маричджханпи» изобразил жизнь мужчин и женщин из низших каст после реабилитации? Была ли реабилитация в Дандакарнье результатом государственного безразличия? Как беженцы адаптировались к измененной природной среде?»

Еда и кулинария

«В каком контексте кулинарные книги публиковались с конца XIX века? В чем разница между первой бенгальской кулинарной книгой и книгой, написанной Бибрадасом Мукерджи? Как долго издавался журнал, опубликованный Бибрадасом? Какая книга была опубликована Дигапатией, следуя писаниям Бибрадаса и Прагьи Сундари?»

Прогресс и ограничения

OpenAI использует IndQA для отслеживания прогресса своих моделей. Данные показывают значительное улучшение понимания индийских языков за последние годы, но сохраняется существенный потенциал для роста.

Важное ограничение: поскольку вопросы различаются между языками, IndQA не предназначен для сравнения моделей между языками. Вместо этого бенчмарк используется для измерения прогресса внутри одного семейства моделей.

Создание культурно-специфичных бенчмарков — давно назревшая необходимость в индустрии. OpenAI делает стратегически верный ход, фокусируясь на втором по величине рынке, но интересно, сколько времени потребуется конкурентам, чтобы представить аналоги для других регионов. Вопрос не в том, нужны ли такие бенчмарки, а в том, кто успеет первым охватить ключевые языковые рынки.

Экспертная база

В разработке участвовали 261 индийский специалист, включая лауреатов премии Nandi, шахматных гроссмейстеров, журналистов, лингвистов, поэтов и профессоров различных дисциплин. Такой широкий охват экспертизы обеспечивает глубину и достоверность созданных заданий.

OpenAI надеется, что выпуск IndQA вдохновит исследовательское сообщество на создание аналогичных бенчмарков для других языков и культурных контекстов, что в конечном итоге улучшит качество ИИ для всех пользователей независимо от их языковой принадлежности.

По материалам OpenAI