ИИ-чатботы собирают личные данные пользователей для обучения

Стэнфордское исследование выявило, что ведущие ИИ-компании по умолчанию используют диалоги пользователей для обучения моделей, создавая риски для приватности.

Оглавление

Тихие изменения в условиях обслуживания
Системные проблемы приватности
Размытые границы сбора данных
Проблемы с детской приватностью
ИИ с сохранением приватности

Исследование Стэнфордского университета показало, что ведущие разработчики ИИ используют диалоги пользователей для тренировки своих моделей по умолчанию, что создает серьезные риски для приватности.

Тихие изменения в условиях обслуживания

В прошлом месяце Anthropic внесла незаметное изменение в свои условия обслуживания: разговоры с чат-ботом Claude теперь по умолчанию используются для обучения языковой модели, если пользователь специально не откажется от этого.

Anthropic не единственная компания, принявшая такую политику. Недавнее исследование политики конфиденциальности ведущих разработчиков показало, что шесть крупных американских компаний используют пользовательские данные для улучшения своих моделей и конкурентной борьбы на рынке. Некоторые предоставляют потребителям возможность отказаться от этого, другие — нет.

Стоит ли пользователям систем с ИИ беспокоиться о своей приватности? «Безусловно да», — говорит ведущий автор исследования Дженнифер Кинг, специалист по политике приватности и данным в Стэнфордском институте человеко-ориентированного ИИ. «Если вы делитесь конфиденциальной информацией в диалоге с ChatGPT, Gemini или другими передовыми моделями, она может быть собрана и использована для обучения, даже если это отдельный файл, который вы загрузили во время разговора».

Системные проблемы приватности

Кинг и ее команда из Стэнфорда изучили политики конфиденциальности разработчиков ИИ и выявили несколько причин для беспокойства:

Длительные периоды хранения данных
Обучение на данных детей
Общая недостаточная прозрачность и подотчетность в практике обеспечения конфиденциальности

В свете этих выводов потребителям следует дважды подумать о информации, которой они делятся в чатах с ИИ, и по возможности активно отказываться от использования своих данных для обучения.

Поразительно, как быстро индустрия перешла от «мы собираем данные для улучшения вашего опыта» к «мы собираем ваши самые личные разговоры для обучения наших моделей». Пользователи стали бесплатными поставщиками тренировочных данных, даже не подозревая об этом. Ирония в том, что чем откровеннее вы общаетесь с ИИ, тем ценнее становятся ваши данные для компаний — и тем больше рисков для вашей приватности.

Размытые границы сбора данных

Исследователи обнаружили, что все шесть компаний по умолчанию используют данные чатов пользователей для обучения своих моделей, а некоторые разработчики хранят эту информацию в своих системах бессрочно. Некоторые, но не все компании заявляют, что обезличивают личную информацию перед использованием для тренировочных целей. Некоторые разработчики разрешают людям просматривать транскрипты чатов пользователей для целей обучения моделей.

В случае многопродуктовых компаний, таких как Google, Meta*, Microsoft и Amazon, взаимодействия пользователей также регулярно объединяются с информацией, полученной из других продуктов, которые потребители используют на этих платформах — поисковые запросы, покупки, активность в социальных сетях и тому подобное.

Сравнительная таблица политик конфиденциальности компаний в сфере искусственного интеллекта — Источник: hai.stanford.edu

Эти практики могут стать проблематичными, когда, например, пользователи делятся личными биометрическими и медицинскими данными, не задумываясь о последствиях. Вот реалистичный сценарий: представьте, что вы просите ИИ предложить идеи для ужина. Возможно, вы указываете, что хотите рецепты с низким содержанием сахара или полезные для сердца. Чат-бот может делать выводы из этих входных данных, и алгоритм может решить, что вы подходите под классификацию человека с уязвимым здоровьем. «Это определение просачивается через экосистему разработчика. Вы начинаете видеть рекламу лекарств, и легко представить, как эта информация может оказаться в руках страховой компании. Эффекты накапливаются со временем», — объясняет Кинг.

Проблемы с детской приватностью

Еще один тревожный сигнал, обнаруженный исследователями, касается приватности детей: практика разработчиков варьируется в этом отношении, но большинство не принимает мер по удалению детских данных из процессов сбора данных и обучения моделей.

Google ранее в этом году объявил, что будет обучать свои модели на данных подростков, если они согласятся
Anthropic заявляет, что не собирает данные детей и не позволяет пользователям младше 18 лет создавать учетные записи, хотя не требует проверки возраста
Microsoft собирает данные от детей до 18 лет, но не использует их для построения языковых моделей

Все эти практики поднимают вопросы согласия, поскольку дети не могут юридически согласиться на сбор и использование своих данных.

ИИ с сохранением приватности

В целом стэнфордские ученые отметили, что политики конфиденциальности разработчиков не содержат важной информации об их практике. Они рекомендуют политикам и разработчикам решать проблемы защиты данных, создаваемые чат-ботами на основе ИИ, с помощью:

Всестороннего федерального регулирования приватности
Активного согласия на обучение моделей
Фильтрации личной информации из чатов по умолчанию

«Как обществу нам нужно взвесить, стоят ли потенциальные выгоды в возможностях ИИ от обучения на данных чатов значительной потери приватности потребителей. И нам нужно способствовать инновациям в ИИ с сохранением приватности, чтобы приватность пользователей не была второстепенной мыслью», — заключает Кинг.

По материалам Stanford HAI.

* Meta (признана экстремистской и запрещена в РФ)

Новости

Чатботы крупных ИИ-компаний собирают личные данные пользователей для обучения моделей

Тихие изменения в условиях обслуживания

Системные проблемы приватности

Размытые границы сбора данных

Проблемы с детской приватностью

ИИ с сохранением приватности

Еще интереснее

GPT-5 дает больше опасных ответов на темы психического здоровья, чем предшественники

OpenAI создает экспертный совет, который будет оценивать влияние ИИ на благополучие человека

Почему ИИ-стратегии внутри компаний тормозят и как сделать их внедрение более быстрым

Косвенные промпт-инъекции угрожают долговременной памяти ИИ-систем

Оставить комментарий