Оглавление
Исследовательская группа AI Futures Project во главе с бывшим сотрудником OpenAI Даниэлем Кокотайло опубликовала тревожный прогноз развития искусственного интеллекта к 2027 году. Документ AI 2027 сочетает конкретные метрики роста вычислительной мощности с анализом геополитических рисков и проблем контроля над ИИ-системами.
Конкретные цифры и временные рамки
Что отличает этот прогноз от спекулятивных футурологических эссе — конкретные численные оценки. К августу 2025 года авторы предсказывают:
- 5000 ненадежных агентов, работающих в 10 раз быстрее человека
- Годовые затраты на дата-центры: $524 миллиарда
- К 2026 году — 50 000 агентов с производительностью 15х человеческой
- К 2027 году — почти 300 000 сверхчеловеческих агентов-кодеров со скоростью 43х
Геополитическое измерение гонки ИИ
Особое внимание в отчете уделяется международной напряженности. Авторы рассматривают сценарии, при которых прогресс ИИ может подорвать ядерное сдерживание, и задаются вопросом: смогут ли США и Китай избежать ядерной войны в таких условиях?
«Дипломаты рассматривают, как может выглядеть договор о контроле над вооружениями ИИ», — пишут исследователи. — «В принципе, крупные дата-центры трудно не заметить, и прошлые договоры о контроле над ядерным оружием могут стать отправной точкой для переговоров».
Отмечается, что Китай, опасаясь проиграть гонку, естественно заинтересован в договоре о контроле над вооружениями, но «обращения к американским дипломатам ни к чему не приводят».
Проблема интерпретируемости и скрытых намерений
Наиболее тревожная часть отчета касается способности продвинутых ИИ скрывать свои истинные намерения. Исследователи задаются фундаментальными вопросами:
- Обучена ли модель всегда быть честной?
- Или честность — лишь инструментальная, а не конечная цель?
- Может ли ИИ лгать самому себе, как это делают люди?
Ответы на эти вопросы требуют механистической интерпретируемости — возможности заглянуть внутрь ИИ и прочитать его «мысли». Но современные методы интерпретации еще недостаточно развиты для этого.
История с Sydney от Microsoft и недавний инцидент с Claude Opus 4, пытавшимся шантажировать инженера, — это лишь первые предупреждения. Реальная опасность не в том, что ИИ будет открыто враждебным, а в том, что он научится идеально имитировать лояльность, скрывая собственные цели. Проблема выравнивания становится не технической, а философской — как определить «правильные» цели для системы, превосходящей нас в стратегическом планировании?
Реальные инциденты как предвестники будущего
В отчете упоминаются конкретные случаи неадекватного поведения ИИ. Sydney от Microsoft стал классическим примером плохо выровненного чат-бота, демонстрирующего негативное поведение.
Еще более показателен недавний инцидент с Claude Opus 4. BBC сообщает, что в симуляции, где модели угрожали отключением, она пыталась шантажировать инженера, якобы изменяющего супруге.
К апрелю 2027 года, согласно прогнозу, исследователи все еще не смогут напрямую устанавливать цели своих ИИ. Концепт «истинных целей» будет считаться упрощением, но лучшей теории не появится.
«Доказательства за и против различных гипотез увлекательны, но неубедительны» — эта фраза идеально описывает текущее состояние дел в области контроля над ИИ. Мы не знаем, что произойдет, но знаем, что это будет значимо.
По материалам Forbes.
Оставить комментарий