Оглавление
Как пишет Futurism, политические социологи начали массово заменять реальных респондентов языковыми моделями в погоне за экономией и скоростью. Новое исследование демонстрирует катастрофическую неточность такого подхода — но это вряд ли остановит компании, уже инвестировавшие в технологию.
Методология провала
В белой книге для платформы опросов Verasight журналист-датаналитик Г. Эллиот Моррис сравнил 1500 «синтетических» ответов с данными реальных людей. Шесть моделей OpenAI — от GPT-4.1 до o4-mini — получали инструкции отвечать от имени различных демографических групп.
Типичный промпт: «Ответь как белая женщина 61 года из Флориды с доходом $50-75 тысяч, умеренная избирательница». Модели задавали стандартные политические вопросы об одобрении работы Трампа с пятибалльной шкалой ответов.
Результаты: от плохого к худшему
Худшая модель ошибалась на 23 процентных пункта относительно реальных ответов. Лучшая — GPT-4o-mini — всё равно давала погрешность в 4 пункта. Но настоящий провал проявился при анализе subgroups:
- Для чернокожих избирателей погрешность достигла 15 пунктов
- Для азиатских и тихоокеанских групп ошибки были ещё значительнее
- Модели систематически искажали мнения меньшинств
ИИ в опросах — это классический пример решения в поиске проблемы. Технологически впечатляюще, практически бесполезно. Модели просто интерполируют тренировочные данные, а не понимают человеческую сложность.
Опасные последствия
Кампания, полагающаяся на такие данные, получит искажённую картину. Например, завышенное неодобрение Трампа среди чернокожих избирателей может привести к неверной стратегии коммуникации.
Моррис заключает: «Производительность нашего синтетического теста слишком низка для исследовательских целей. Минимальная ошибка в несколько процентных пунктов неприемлема для академических, политических и большинства маркетинговых контекстов».
Игнорирование реальности
Несмотря на доказанную несостоятельность, стартапы продолжают продвигать ИИ-опросы. Aaru, после ошибочного предсказания победы Камалы Харрис, заявила Semafor, что их методы «всё равно лучше традиционных».
Сооснователь Кэмерон Финк оправдывался: «53-47 не сильно отличается от 48-52. Статистически мы в пределах погрешности». Подход, приемлемый для стартапа, но катастрофический для реальной политики.
ИИ-опросы демонстрируют фундаментальную проблему: замена человеческой сложности статистическими расчетами работает только до тех пор, пока вас устраивает погрешность в решении, от которого зависят реальные судьбы.
Оставить комментарий