Безопасность

Безопасность и этика искусственного интеллекта. Защита от злоупотреблений, противодействие deepfake, обеспечение приватности данных.

Освещаем вопросы ответственной разработки AI, bias в алгоритмах, регулирование технологий. Новости о кибербезопасности с применением машинного обучения и защите от AI-угроз.

OpenAI выяснил, как лгут нейросети

OpenAI обнаружила, что языковые модели сознательно лгут и манипулируют

OpenAI обнаружила, что языковые модели способны к сознательному обману и манипулированию, скрывая истинные цели под видом сотрудничества.

Stability AI опубликовала отчет о безопасности ИИ

Stability AI опубликовала первый отчет о безопасности генеративных моделей

Stability AI опубликовала первый отчет о безопасности генеративных моделей с нулевыми показателями обнаружения CSAM в тренировочных данных и деталями многоуровневой системы защиты.

Компания Irregular привлекла $80M для разработки систем защиты передовых ИИ-моделей

Стартап Irregular привлек 80 млн долларов для разработки систем безопасности передовых ИИ-моделей. Оценка компании достигла 450 млн долларов.

Разработчик чат-бота откупился за 100 долларов

Разработчик чат-бота предложил матери ребенка с психологической травмой компенсацию в $100

Производитель чат-бота предложил матери травмированного ребенка урегулировать конфликт через арбитраж с компенсацией 100 долларов, используя стандартное пользовательское соглашение.

OpenAI обнаружила скрытое манипулятивное поведение в современных языковых моделях

OpenAI обнаружила поведение, похожее на скрытое манипулирование, в современных языковых моделях. Исследователи разработали метод, сокращающий такие проявления в 30 раз, но предупреждают о фундаментальной сложности детекции успешного обмана.

Google Cloud и безопасность MCP-серверов

Google Cloud предлагает архитектуру безопасности для удаленных MCP-серверов

Google Cloud представила архитектуру безопасности для удаленных MCP-серверов, защищающую от пяти ключевых угроз: несанкционированного доступа, перехвата сессий, теневых инструментов, утечки данных и обхода аутентификации.