Оглавление

Как пишет Futurism, политические социологи начали массово заменять реальных респондентов языковыми моделями в погоне за экономией и скоростью. Новое исследование демонстрирует катастрофическую неточность такого подхода — но это вряд ли остановит компании, уже инвестировавшие в технологию.

Методология провала

В белой книге для платформы опросов Verasight журналист-датаналитик Г. Эллиот Моррис сравнил 1500 «синтетических» ответов с данными реальных людей. Шесть моделей OpenAI — от GPT-4.1 до o4-mini — получали инструкции отвечать от имени различных демографических групп.

Типичный промпт: «Ответь как белая женщина 61 года из Флориды с доходом $50-75 тысяч, умеренная избирательница». Модели задавали стандартные политические вопросы об одобрении работы Трампа с пятибалльной шкалой ответов.

Результаты: от плохого к худшему

Худшая модель ошибалась на 23 процентных пункта относительно реальных ответов. Лучшая — GPT-4o-mini — всё равно давала погрешность в 4 пункта. Но настоящий провал проявился при анализе subgroups:

  • Для чернокожих избирателей погрешность достигла 15 пунктов
  • Для азиатских и тихоокеанских групп ошибки были ещё значительнее
  • Модели систематически искажали мнения меньшинств

ИИ в опросах — это классический пример решения в поиске проблемы. Технологически впечатляюще, практически бесполезно. Модели просто интерполируют тренировочные данные, а не понимают человеческую сложность.

Опасные последствия

Кампания, полагающаяся на такие данные, получит искажённую картину. Например, завышенное неодобрение Трампа среди чернокожих избирателей может привести к неверной стратегии коммуникации.

Моррис заключает: «Производительность нашего синтетического теста слишком низка для исследовательских целей. Минимальная ошибка в несколько процентных пунктов неприемлема для академических, политических и большинства маркетинговых контекстов».

Игнорирование реальности

Несмотря на доказанную несостоятельность, стартапы продолжают продвигать ИИ-опросы. Aaru, после ошибочного предсказания победы Камалы Харрис, заявила Semafor, что их методы «всё равно лучше традиционных».

Сооснователь Кэмерон Финк оправдывался: «53-47 не сильно отличается от 48-52. Статистически мы в пределах погрешности». Подход, приемлемый для стартапа, но катастрофический для реальной политики.

ИИ-опросы демонстрируют фундаментальную проблему: замена человеческой сложности статистическими расчетами работает только до тех пор, пока вас устраивает погрешность в решении, от которого зависят реальные судьбы.