Уязвимость Apple Intelligence: промпт-инъекции обходит защиту

Специалисты по кибербезопасности обнаружили уязвимость в локальных моделях Apple Intelligence, которая позволяла игнорировать системные инструкции и выполнять произвольный код через prompt injection. Атака строилась на обмане фильтров входных и выходных данных, которые Apple внедрила для обеспечения безопасности своих нейросетевых функций.

Оглавление

Механика обхода: задом наперед и через фильтры
Реакция Apple и текущий статус

Специалисты по кибербезопасности обнаружили уязвимость в локальных моделях Apple Intelligence, которая позволяла игнорировать системные инструкции и выполнять произвольный код через промпт-инъекции. Как сообщает издание 9to5Mac, атака строилась на обмане фильтров входных и выходных данных, которые Apple внедрила для обеспечения безопасности своих нейросетевых функций.

Проблема заключалась в возможности комбинирования двух техник: использования спецсимволов Unicode и метода, известного как Neural Exec. Несмотря на закрытость архитектуры Apple, исследователям удалось воссоздать логику работы пайплайна, где запрос сначала проходит через фильтр безопасности, затем обрабатывается on-device LLM, а результат проверяется финальным фильтром перед выводом пользователю.

Механика обхода: задом наперед и через фильтры

Для реализации атаки эксперты применили элегантный, хотя и несколько ироничный подход. Вредоносная строка записывалась в обратном порядке, а затем дополнялась управляющим символом Unicode RIGHT-TO-LEFT OVERRIDE. В итоге фильтры видели бессмысленный набор знаков, тогда как модель воспринимала команду в корректном виде и приступала к выполнению.

Вторым этапом стало внедрение этой строки в структуру Neural Exec. Этот метод представляет собой сложную надстройку над запросом, которая заставляет модель переключаться с выполнения системной задачи на инструкции злоумышленника. В ходе тестов исследователи достигли 76% успеха, используя 100 случайных комбинаций системных промптов и вредоносных нагрузок.

Безопасность ИИ-систем через фильтрацию токенов напоминает попытку удержать воду в решете: пока мы блокируем конкретные слова, математика модели находит лазейки в самой структуре языка. Apple создала впечатляющую локальную инфраструктуру, но полагаться на простые проверки ввода — это стратегическая близорукость. Настоящая устойчивость требует изоляции контекста исполнения, а не только игры в кошки-мышки с Unicode-символами. Очередной триумф хакерской смекалки над корпоративной самоуверенностью.

Реакция Apple и текущий статус

Хронология событий указывает на то, что Apple восприняла угрозу достаточно серьезно. Уязвимость была раскрыта компании еще в октябре 2025 года. После проведения внутреннего аудита инженеры внедрили дополнительные механизмы защиты, которые должны предотвращать подобные манипуляции с направлением текста и вложенными командами.

Исправления стали доступны пользователям в рамках обновлений iOS 26.4 и macOS 26.4. Стоит заметить, что это не первый случай, когда жесткие ограничения «яблочной» экосистемы сталкиваются с гибкостью больших языковых моделей, и, вероятно, далеко не последний. Пользователям остается лишь вовремя обновлять свои устройства и надеяться, что фильтры следующего поколения окажутся чуть проницательнее.

Новости

Исследователи обошли защиту Apple Intelligence с помощью «перевернутых» промптов

Механика обхода: задом наперед и через фильтры

Реакция Apple и текущий статус

Еще интереснее

Anthropic объединяет технологических гигантов в проекте Project Glasswing для защиты кода от ИИ

Anthropic случайно удалила тысячи репозиториев на GitHub, пытаясь скрыть утечку Claude Code

Стартап ThroughLine разрабатывает инструмент для отслеживания «радикального» контента в ChatGPT

Исследование: всего 250 документов достаточно, чтобы «отравить» LLM при обучении

Оставить комментарий