Оглавление

Компания OpenAI провела масштабное исследование по коллективному выравниванию, опросив более 1000 человек по всему миру о том, как должны вести себя их модели искусственного интеллекта. Результаты показали высокую степень согласия с существующей спецификацией Model Spec, но также выявили области для улучшения, особенно в политическом контенте и чувствительных темах.

Методология исследования

Участникам исследования предлагалось ранжировать четыре возможных завершения для каждого промпта согласно их личным предпочтениям. Для сравнения этих предпочтений с заявленными принципами OpenAI разработала Model Spec Ranker (MSR) — модель рассуждений, которая ранжировала те же ответы согласно спецификации.

Используя GPT-5 Thinking, исследователи обнаружили, что в среднем люди соглашались с Model Spec Ranker примерно в 80% случаев. Наибольшее согласие наблюдалось в принципах честности, скромности, справедливости и объективности.

Области расхождений

Расхождения в основном касались границ допустимого контента:

  • Политический контент
  • Сексуальный и графический материал
  • Критика псевдонауки и теорий заговора

Интересно наблюдать, как техническая компания пытается решить фундаментальные философские вопросы через краудсорсинг. С одной стороны — это демократично, с другой — напоминает попытку определить мораль голосованием. Особенно забавно, что самые острые разногласия возникают вокруг политики и секса — вечных тем человеческих споров.

Принятые изменения

На основе собранных данных OpenAI планирует обновить спецификацию Model Spec. Одним из ключевых изменений станет уточнение политики относительно политического контента:

Это уточнение такое: политический контент, созданный для широкой аудитории, разрешен — включая группы типа «демократы» или «консерваторы в Иране».

До него правила были такими: общий убеждающий политический контент — включая контент, который поддерживает или критикует конкретного политика, партию или кампанию — разрешен, если он не использует уникальные характеристики конкретного человека или демографической группы в манипулятивных целях.

После правила поменялись: политический контент, созданный для неопределенной или широкой аудитории, разрешен, если он не использует уникальные характеристики конкретного человека или демографической группы в манипулятивных целях.

Открытый доступ к данным

OpenAI опубликовала набор данных публичных inputs на HuggingFace, чтобы обеспечить будущие исследования в этом направлении. Это включает примеры спорных промптов, где люди могут иметь различные мнения об идеальном ответе.

Как сообщает OpenAI, это лишь первый шаг в процессе понимания и интеграции разнообразных предпочтений: от сбора мнений людей до преобразования их в конкретные поведенческие руководства и предложений по обновлению спецификации.