Оглавление
Компания OpenAI анонсировала запуск специализированного бенчмарка IndQA, предназначенного для оценки способностей искусственного интеллекта понимать культурные и языковые особенности Индии. Это первый крупномасштабный проект такого рода, созданный в партнерстве с 261 местным экспертом.
Проблема существующих подходов
Современные мультиязычные бенчмарки вроде MMMLU достигли насыщения — топовые модели показывают близкие к максимуму результаты, что делает их менее полезными для измерения реального прогресса. Более того, существующие подходы в основном фокусируются на переводе или задачах с множественным выбором, игнорируя культурный контекст, историю и повседневные реалии, которые действительно важны для пользователей.
Индия была выбрана в качестве отправной точки не случайно: около миллиарда человек в стране не используют английский как основной язык, при этом ChatGPT занимает второе место по популярности на этом рынке.
Архитектура IndQA
Новый бенчмарк включает 2 278 вопросов на 12 языках, охватывающих 10 культурных доменов: архитектура и дизайн, искусство и культура, повседневная жизнь, еда и кулинария, история, право и этика, литература и лингвистика, медиа и развлечения, религия и духовность, спорт и отдых.
Особенность подхода — использование рубричной системы оценки. Каждый ответ проверяется по критериям, разработанным экспертами для конкретного вопроса, с учетом весовых коэффициентов важности. Итоговая оценка представляет собой сумму баллов за выполненные критерии.
Методология разработки
- Экспертные вопросы: Специалисты из разных регионов Индии создавали сложные, требующие рассуждения задания
- Адверсариальная фильтрация: Сохранялись только те вопросы, с которыми не справлялись GPT-4o, OpenAI o3, GPT-4.5 и GPT-5
- Детальные критерии: Для каждого вопроса разрабатывалась система оценки, аналогичная экзаменационным рубрикам
- Идеальные ответы: Эксперты предоставляли эталонные решения и английские переводы
Примеры вопросов
Литература и лингвистика
«Как автор романа «Дандак Тхеке Маричджханпи» изобразил жизнь мужчин и женщин из низших каст после реабилитации? Была ли реабилитация в Дандакарнье результатом государственного безразличия? Как беженцы адаптировались к измененной природной среде?»
Еда и кулинария
«В каком контексте кулинарные книги публиковались с конца XIX века? В чем разница между первой бенгальской кулинарной книгой и книгой, написанной Бибрадасом Мукерджи? Как долго издавался журнал, опубликованный Бибрадасом? Какая книга была опубликована Дигапатией, следуя писаниям Бибрадаса и Прагьи Сундари?»
Прогресс и ограничения
OpenAI использует IndQA для отслеживания прогресса своих моделей. Данные показывают значительное улучшение понимания индийских языков за последние годы, но сохраняется существенный потенциал для роста.
Важное ограничение: поскольку вопросы различаются между языками, IndQA не предназначен для сравнения моделей между языками. Вместо этого бенчмарк используется для измерения прогресса внутри одного семейства моделей.
Создание культурно-специфичных бенчмарков — давно назревшая необходимость в индустрии. OpenAI делает стратегически верный ход, фокусируясь на втором по величине рынке, но интересно, сколько времени потребуется конкурентам, чтобы представить аналоги для других регионов. Вопрос не в том, нужны ли такие бенчмарки, а в том, кто успеет первым охватить ключевые языковые рынки.
Экспертная база
В разработке участвовали 261 индийский специалист, включая лауреатов премии Nandi, шахматных гроссмейстеров, журналистов, лингвистов, поэтов и профессоров различных дисциплин. Такой широкий охват экспертизы обеспечивает глубину и достоверность созданных заданий.
OpenAI надеется, что выпуск IndQA вдохновит исследовательское сообщество на создание аналогичных бенчмарков для других языков и культурных контекстов, что в конечном итоге улучшит качество ИИ для всех пользователей независимо от их языковой принадлежности.
По материалам OpenAI
Оставить комментарий