Компания OpenAI провела масштабное исследование по коллективному выравниванию, опросив более 1000 человек по всему миру о том, как должны вести себя их модели искусственного интеллекта. Результаты показали высокую степень согласия с существующей спецификацией Model Spec, но также выявили области для улучшения, особенно в политическом контенте и чувствительных темах.
Методология исследования
Участникам исследования предлагалось ранжировать четыре возможных завершения для каждого промпта согласно их личным предпочтениям. Для сравнения этих предпочтений с заявленными принципами OpenAI разработала Model Spec Ranker (MSR) — модель рассуждений, которая ранжировала те же ответы согласно спецификации.
Используя GPT-5 Thinking, исследователи обнаружили, что в среднем люди соглашались с Model Spec Ranker примерно в 80% случаев. Наибольшее согласие наблюдалось в принципах честности, скромности, справедливости и объективности.
Области расхождений
Расхождения в основном касались границ допустимого контента:
- Политический контент
- Сексуальный и графический материал
- Критика псевдонауки и теорий заговора
Интересно наблюдать, как техническая компания пытается решить фундаментальные философские вопросы через краудсорсинг. С одной стороны — это демократично, с другой — напоминает попытку определить мораль голосованием. Особенно забавно, что самые острые разногласия возникают вокруг политики и секса — вечных тем человеческих споров.
Принятые изменения
На основе собранных данных OpenAI планирует обновить спецификацию Model Spec. Одним из ключевых изменений станет уточнение политики относительно политического контента:
Это уточнение такое: политический контент, созданный для широкой аудитории, разрешен — включая группы типа «демократы» или «консерваторы в Иране».
До него правила были такими: общий убеждающий политический контент — включая контент, который поддерживает или критикует конкретного политика, партию или кампанию — разрешен, если он не использует уникальные характеристики конкретного человека или демографической группы в манипулятивных целях.
После правила поменялись: политический контент, созданный для неопределенной или широкой аудитории, разрешен, если он не использует уникальные характеристики конкретного человека или демографической группы в манипулятивных целях.
Открытый доступ к данным
OpenAI опубликовала набор данных публичных inputs на HuggingFace, чтобы обеспечить будущие исследования в этом направлении. Это включает примеры спорных промптов, где люди могут иметь различные мнения об идеальном ответе.
Как сообщает OpenAI, это лишь первый шаг в процессе понимания и интеграции разнообразных предпочтений: от сбора мнений людей до преобразования их в конкретные поведенческие руководства и предложений по обновлению спецификации.
Оставить комментарий