Оглавление
Исследование показывает, что крупные языковые модели от OpenAI, Anthropic и Meta* демонстрируют катастрофическую несостоятельность в понимании персидского культурного кода. Система таароф — сложный ритуал вежливости, где «нет» означает «да», а настойчивость считается проявлением уважения — остается недоступной для современных ИИ.
Культурный провал в цифрах
Согласно исследованию «We Politely Insist: Your LLM Must Learn the Persian Art of Taarof», ведущие модели справляются с таароф-ситуациями лишь в 34-42% случаев. Для сравнения: носители персидского языка демонстрируют точность 82%. Этот разрыв сохраняется у GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 и даже специализированной персидской версии Dorna.
Вежливость не равна культурной компетентности
Исследователи провели любопытный эксперимент с Polite Guard от Intel — классификатором вежливости текста. Результаты показали парадокс: 84,5% ответов ИИ оценивались как «вежливые», но лишь 41,7% из них соответствовали культурным ожиданиям таароф. Разрыв в 42,8 процентных пункта демонстрирует, как модель может быть одновременно вежливой и культурно глухой.
Проблема глубже технических ограничений — это фундаментальный разрыв в декодировании смысла в межкультурном контексте. ИИ, обученные на западных коммуникативных паттернах, воспринимают мир через бинарную логику, где слова соответствуют значениям. Таароф же представляет собой сложную систему культурного сжатия, где буквальное и подразумеваемое расходятся кардинально.
Язык как ключ к пониманию
Интересное наблюдение: при переключении на персидский язык производительность моделей значительно улучшается. DeepSeek V3 повышает точность с 36,6% до 68,6%, GPT-4o показывает рост на 33,1 процентных пункта. Смена языка активирует иные паттерны в тренировочных данных, лучше соответствующие культурным кодам.
Человеческий фактор и гендерные стереотипы
Исследование включило 33 человеческих участника: носителей языка, местных спикеров и не-иранцев. Результаты поразительно коррелируют с ИИ: местные спикеры показали 60% точности, не-иранцы — 42,3%, практически повторяя базовые показатели моделей.
Обнаружилась и гендерная предвзятость: все модели демонстрировали лучшие результаты при взаимодействии с женщинами. GPT-4o показал 43,6% точности для женских запросов против 30,9% для мужских. Модели часто опирались на гендерные стереотипы из тренировочных данных, утверждая, что «мужчины должны платить» или «женщин нельзя оставлять одних», даже когда нормы таароф применяются одинаково независимо от пола.
Возможно ли обучение культурным нюансам?
Исследователи не ограничились констатацией проблемы — они протестировали методы адаптации. Техника Direct Preference Optimization удвоила производительность Llama 3, повысив точность с 37,2% до 79,5%. Контролируемое тонкое обучение дало прирост в 20%, демонстрируя, что культурная компетентность — приобретаемый навык.
Сообщает Ars Technica.
* Meta (признана экстремистской и запрещена в РФ)
Оставить комментарий