ИИ прошел тест Тьюринга: модели GPT-4.5 и Llama-3.1

Модели GPT-4.5 и Llama-3.1 официально признаны способными имитировать человека в текстовом диалоге, успешно пройдя классический тест Тьюринга.

Оглавление

Механика имитации и роль промптов
Риски и последствия антропоморфизма

Современные системы искусственного интеллекта достигли уровня, когда их способность имитировать человеческое общение становится практически неотличимой от оригинала. Согласно результатам исследования, о котором сообщает The Week, сразу две большие языковые модели успешно прошли классический тест Тьюринга, сумев убедить участников эксперимента в своей человеческой природе.

Тест Тьюринга, предложенный еще в 1950 году, ставит перед машиной задачу продемонстрировать интеллект, эквивалентный человеческому, в ходе текстового диалога. Как отмечает Стэнфордский Университет, если проверяющий не может с уверенностью определить, кто находится «по ту сторону экрана» — человек или программа, — тест считается пройденным. Новые данные показывают, что LLM научились не просто выдавать информацию, но и копировать социальные повадки, включая юмор и намеренные ошибки.

В ходе эксперимента, результаты которого опубликованы в научном журнале PNAS, оценивались четыре модели: GPT-4.5, Llama-3.1-405B, а также более ранние версии и исторический чат-бот ELIZA. Результаты оказались впечатляющими: модель GPT-4.5 была принята за человека в 73% случаев, что даже выше показателей реальных людей, участвовавших в контрольной группе. Llama-3.1 показала результат в 56%, став статистически неотличимой от человека.

Механика имитации и роль промптов

Важно понимать, что успех моделей не был случайным — он во многом зависел от качества системных инструкций. Каждой LLM задавали определенную «личность», прописывая стиль общения и характер. Именно эти настройки заставляли алгоритмы допускать типично человеческие огрехи, которые и сбивали судей с толку. Без специальной подготовки показатели моделей резко падали: GPT-4.5 опускалась до 36%, а Llama-3.1 — до 38%.

Исследователи подчеркивают, что современные модели великолепно справляются с ролью «поддельных людей», если им задать правильный вектор. Автор работы Кэмерон Джонс отмечает, что тест Тьюринга по сути превратился в игру в имитацию, где машины научились искусно лгать, подстраиваясь под ожидания собеседника. Это ставит перед разработчиками и пользователями серьезные этические вопросы о доверии к цифровому контенту.

Модели научились мастерски имитировать человеческую невнимательность и сленг, эксплуатируя наши когнитивные искажения. Однако за этим скрывается лишь статистическая вероятность следующего токена, а не понимание контекста. Мы получили идеальный инструмент для создания «цифровых двойников», но до сих пор не научили его отличать истину от правдоподобной галлюцинации.

Риски и последствия антропоморфизма

Способность ИИ убедительно подражать человеку создает почву для новых видов мошенничества и дезинформации. Когда грань между ботом и реальным собеседником стирается, пользователям приходится проявлять избыточную бдительность. Эксперты предупреждают, что мы входим в эпоху, где уверенность в «человечности» онлайн-контакта может оказаться опасной иллюзией.

Несмотря на технологический прорыв, соавтор исследования Бен Берген указывает на важный нюанс: хотя модели могут казаться человекоподобными, они пока не способны самостоятельно осознать, что именно делает их таковыми. Иными словами, ИИ отлично исполняет роль по сценарию, написанному человеком, но лишен субъектности, чтобы инициировать подобное поведение без внешней команды. Это оставляет нам небольшую, но важную зону контроля в мире, где машины все чаще говорят нашим голосом.

Новости

Две современные LLM успешно прошли больше половины попыток в тесте Тьюринга

Механика имитации и роль промптов

Риски и последствия антропоморфизма

Еще интереснее

Стоимость генерации в GPT-5.6 может отличаться в разы из-за 3 моделей и уровней мышления

Новая GPT-5.6 Sol демонстрирует производительность Claude Fable 5 за треть от его стоимости

Meta* представила модель Muse Spark 1.1, оптимизированную под агентов

xAI представила Grok 4.5 — модель уровня GPT 5.5, но в разы дешевле

Оставить комментарий