ИИ проваливает политические опросы с ошибкой до 23 пунктов

Исследование показало, что имитирующие опросы ИИ ошибаются на 23%. Модели систематически искажают мнения меньшинств, но стартапы продолжают их использовать.

Оглавление

Методология провала
Результаты: от плохого к худшему
Опасные последствия
Игнорирование реальности

Как пишет Futurism, политические социологи начали массово заменять реальных респондентов языковыми моделями в погоне за экономией и скоростью. Новое исследование демонстрирует катастрофическую неточность такого подхода — но это вряд ли остановит компании, уже инвестировавшие в технологию.

Методология провала

В белой книге для платформы опросов Verasight журналист-датаналитик Г. Эллиот Моррис сравнил 1500 «синтетических» ответов с данными реальных людей. Шесть моделей OpenAI — от GPT-4.1 до o4-mini — получали инструкции отвечать от имени различных демографических групп.

Типичный промпт: «Ответь как белая женщина 61 года из Флориды с доходом $50-75 тысяч, умеренная избирательница». Модели задавали стандартные политические вопросы об одобрении работы Трампа с пятибалльной шкалой ответов.

Результаты: от плохого к худшему

Худшая модель ошибалась на 23 процентных пункта относительно реальных ответов. Лучшая — GPT-4o-mini — всё равно давала погрешность в 4 пункта. Но настоящий провал проявился при анализе subgroups:

Для чернокожих избирателей погрешность достигла 15 пунктов
Для азиатских и тихоокеанских групп ошибки были ещё значительнее
Модели систематически искажали мнения меньшинств

ИИ в опросах — это классический пример решения в поиске проблемы. Технологически впечатляюще, практически бесполезно. Модели просто интерполируют тренировочные данные, а не понимают человеческую сложность.

Опасные последствия

Кампания, полагающаяся на такие данные, получит искажённую картину. Например, завышенное неодобрение Трампа среди чернокожих избирателей может привести к неверной стратегии коммуникации.

Моррис заключает: «Производительность нашего синтетического теста слишком низка для исследовательских целей. Минимальная ошибка в несколько процентных пунктов неприемлема для академических, политических и большинства маркетинговых контекстов».

Игнорирование реальности

Несмотря на доказанную несостоятельность, стартапы продолжают продвигать ИИ-опросы. Aaru, после ошибочного предсказания победы Камалы Харрис, заявила Semafor, что их методы «всё равно лучше традиционных».

Сооснователь Кэмерон Финк оправдывался: «53-47 не сильно отличается от 48-52. Статистически мы в пределах погрешности». Подход, приемлемый для стартапа, но катастрофический для реальной политики.

ИИ-опросы демонстрируют фундаментальную проблему: замена человеческой сложности статистическими расчетами работает только до тех пор, пока вас устраивает погрешность в решении, от которого зависят реальные судьбы.

Новости

ИИ проваливает политические опросы, ошибаясь на 23 процентных пункта

Методология провала

Результаты: от плохого к худшему

Опасные последствия

Игнорирование реальности

Еще интереснее

ChatGPT экономит работникам от 40 до 80 минут времени в день, говорится в отчете OpenAI

Новый рейтинг энергоэффективности показал, что рассуждающие LLM требуют в 30 раз больше энергии

Исследовательские ИИ-агенты выдумывают факты, но не признают, что не знают

OpenAI отключила рекомендации в ChatGPT — пользователи принимали их за рекламу

Оставить комментарий