Оглавление

Принято считать, что за сухими цифрами производительности нейросетей стоит объективная истина, однако свежее исследование Google Research и Рочестерского технологического института ставит эту уверенность под сомнение. Как сообщает издание The Decoder, современные методы тестирования ИИ систематически игнорируют естественные разногласия между людьми, что делает многие рейтинги безопасности и токсичности не более чем статистическим шумом.

Проблема кроется в устоявшемся индустриальном стандарте: обычно для оценки одного примера (будь то ответ чат-бота или сомнительный комментарий) привлекают от трех до пяти асессоров. Если мнения разделяются, итоговый вердикт выносится простым большинством голосов. Такой подход удобен для отчетности, но он полностью стирает нюансы человеческого восприятия, превращая сложные этические дилеммы в бинарный код «да» или «нет».

Математика против консенсуса

Исследователи решили проверить, насколько надежны такие бюджетные оценки, создав симулятор, воспроизводящий паттерны поведения реальных разметчиков. Они проанализировали тысячи вариантов распределения ресурсов на пяти крупных датасетах, включая проверки на токсичность и кросс-культурную приемлемость. Выяснилось, что привычный лимит в пять человек — это ловушка, которая не позволяет получить воспроизводимые результаты.

Для того чтобы бенчмарк стал действительно надежным, на каждый тестовый пример требуется минимум десять оценщиков. Это число позволяет не просто выявить «победителя», но и зафиксировать сам факт разногласий. Ведь если два комментария признаны токсичными, но в одном случае с этим согласны все, а в другом — лишь половина, то для обучения качественной модели это принципиально разные данные, которые сейчас сваливают в одну корзину.

Индустрия попала в ловушку «удобных метрик», где точность подменяет собой истинное понимание контекста. Мы пытаемся измерить тонкие материи человеческой морали линейкой, у которой стерты деления. Пока компании гонятся за долями процента в таблицах лидеров, они игнорируют тот факт, что сами эти проценты построены на зыбком фундаменте из пяти случайных мнений. Без учета дисперсии взглядов любые заявления о безопасности ИИ остаются лишь маркетинговой декларацией, не имеющей отношения к реальности.

Стратегия умного бюджета

Интересно, что общее количество аннотаций не обязательно должно быть заоблачным. Согласно выводам команды Google, около 1000 оценок могут дать вполне достоверную картину, если правильно распределить бюджет между количеством примеров и числом людей на каждый из них. Здесь нет универсального рецепта, всё зависит от того, что именно мы хотим измерить в конкретной модели.

  • Для проверки общей точности (соответствия большинству) эффективнее брать больше разных примеров и меньше людей.
  • Для фиксации разнообразия мнений и «серых зон» нужно уменьшить количество примеров, но радикально увеличить число асессоров для каждого.
  • Использование метрик, учитывающих распределение ответов, позволяет находить различия между моделями быстрее и при меньших затратах.

В конечном счете, разработка ИИ — это не только про видеокарты и алгоритмы, но и про то, как мы понимаем самих себя. Нынешние бенчмарки пытаются усреднить человечество до уровня статистической погрешности, что выглядит довольно иронично на фоне амбиций создать «сверхчеловеческий» интеллект. Возможно, пришло время признать, что в некоторых вопросах отсутствие единого мнения и есть самый важный результат.