Исследователи обнаружили метод обхода систем безопасности языковых моделей через манипуляцию проекционными матрицами, что ставит под вопрос эффективность текущих подходов к защите ИИ.
Агентные браузеры вроде Comet и Claude демонстрируют фундаментальные уязвимости интернета, созданного для людей. Скрытые инструкции могут управлять ИИ-агентами без ведома пользователя.
Cloudflare предотвратил крупную атаку на npm-пакеты с помощью машинного обучения, анализирующего 3.5 млрд скриптов в день. Модель обнаружила все 18 вредоносных пакетов без предварительного обучения на подобных атаках.
Cloudflare совместно с Visa и Mastercard разрабатывает систему безопасности для автоматической коммерции, где ИИ-агенты совершают покупки от имени пользователей с криптографической аутентификацией.
Исследование показывает, что минимальное количество вредоносных данных может создавать уязвимости в языковых моделях, опровергая традиционные представления о безопасности ИИ.
Обзор ключевых этических трендов в области искусственного интеллекта, которые будут формировать доверие и ответственность в 2026 году: от авторских прав до глобального регулирования.