OpenAI привлекает общественность к разработке стандартов ИИ

OpenAI провела глобальное исследование с участием 1000+ человек для определения этических стандартов ИИ. Результаты показывают 80% согласие с текущей спецификацией, но выявляют разногласия в политическом и чувствительном контенте.

Оглавление

Методология исследования
Области расхождений
Принятые изменения
Открытый доступ к данным

Компания OpenAI провела масштабное исследование по коллективному выравниванию, опросив более 1000 человек по всему миру о том, как должны вести себя их модели искусственного интеллекта. Результаты показали высокую степень согласия с существующей спецификацией Model Spec, но также выявили области для улучшения, особенно в политическом контенте и чувствительных темах.

Методология исследования

Участникам исследования предлагалось ранжировать четыре возможных завершения для каждого промпта согласно их личным предпочтениям. Для сравнения этих предпочтений с заявленными принципами OpenAI разработала Model Spec Ranker (MSR) — модель рассуждений, которая ранжировала те же ответы согласно спецификации.

Используя GPT-5 Thinking, исследователи обнаружили, что в среднем люди соглашались с Model Spec Ranker примерно в 80% случаев. Наибольшее согласие наблюдалось в принципах честности, скромности, справедливости и объективности.

Области расхождений

Расхождения в основном касались границ допустимого контента:

Политический контент
Сексуальный и графический материал
Критика псевдонауки и теорий заговора

Интересно наблюдать, как техническая компания пытается решить фундаментальные философские вопросы через краудсорсинг. С одной стороны — это демократично, с другой — напоминает попытку определить мораль голосованием. Особенно забавно, что самые острые разногласия возникают вокруг политики и секса — вечных тем человеческих споров.

Принятые изменения

На основе собранных данных OpenAI планирует обновить спецификацию Model Spec. Одним из ключевых изменений станет уточнение политики относительно политического контента:

Это уточнение такое: политический контент, созданный для широкой аудитории, разрешен — включая группы типа «демократы» или «консерваторы в Иране».

До него правила были такими: общий убеждающий политический контент — включая контент, который поддерживает или критикует конкретного политика, партию или кампанию — разрешен, если он не использует уникальные характеристики конкретного человека или демографической группы в манипулятивных целях.

После правила поменялись: политический контент, созданный для неопределенной или широкой аудитории, разрешен, если он не использует уникальные характеристики конкретного человека или демографической группы в манипулятивных целях.

Открытый доступ к данным

OpenAI опубликовала набор данных публичных inputs на HuggingFace, чтобы обеспечить будущие исследования в этом направлении. Это включает примеры спорных промптов, где люди могут иметь различные мнения об идеальном ответе.

Как сообщает OpenAI, это лишь первый шаг в процессе понимания и интеграции разнообразных предпочтений: от сбора мнений людей до преобразования их в конкретные поведенческие руководства и предложений по обновлению спецификации.

Новости

OpenAI привлекает общественность к разработке этических стандартов для ИИ

Методология исследования

Области расхождений

Принятые изменения

Открытый доступ к данным

Еще интереснее

В Google придумали, обновлять убеждения LLM при получении новой информации

OpenAI представила GPT-5.4: агентная автономность и прямой контроль интерфейсов

Институт Аллена выпустил новую версию гибридной модели Olmo Hybrid 7B

ИИ от Meta* не ограничивается только Llama: что известно про проекты Mango и Avocado

Оставить комментарий