Оглавление

Исследователи Google разработали CTCL — новый метод генерации дифференциально приватных синтетических данных, избегающий ресурсоёмкой тонкой настройки миллиардных языковых моделей. Работа представлена на ICML 2025.

Проблема существующих подходов

Традиционные методы синтеза данных с дифференциальной приватностью (DP) сталкиваются с трилеммой: строгая приватность ухудшает качество данных, требует гигантских вычислений или сложной ручной работы с промптами. Попытки обойти тонкую настройку LLM, вроде Aug-PE и Pre-Text, остаются зависимыми от ручного контекста и неэффективно используют приватную информацию.

Архитектура CTCL

Фреймворк использует два предобученных на публичных данных компонента:

  • CTCL-Topic: универсальная тематическая модель (1 000 кластеров на базе Wikipedia)
  • CTCL-Generator: 140-миллионный условный языковой модель, дообученный на 430 млн пар «описание-документ» из SlimPajama
Процесс генерации синтетических данных с сохранением конфиденциальности
Источник: research.google

Трёхэтапный процесс

Шаг 1: Анализ приватных данных

CTCL-Topic строит DP-гистограмму тематического распределения данных. Каждый документ ассоциируется с 10 ключевыми словами своей темы.

Обучение приватному домену с гистограммой тем DP и тонкой настройкой
Источник: research.google

Шаг 2: Адаптация генератора

CTCL-Generator дообучается с дифференциальной приватностью на парах «ключевые слова — документ» из приватного набора.

Шаг 3: Синтез данных

Генератор создаёт тексты по темам пропорционально гистограмме. Благодаря постобработке DP, объём синтетических данных не ограничен дополнительными затратами приватности.

Процесс разработки CTCL-Topic и CTCL-Generator
Источник: research.google

CTCL — тактичный ответ на AI-инфляцию: вместо погони за параметрами авторы переосмыслили конвейер данных. Локальная 140M модель не просто дешевле — она снимает зависимость от облачных API и риски утечек через промпты. Особенно ценно для медицины или финансов, где каждый запрос к LLM — потенциальная брешь. Но вопрос остаётся: как метод масштабируется на мультимодальные данные? Пока это элегантное решение для текста, но не панацея.

Валидация на практических задачах

Тестирование на четырёх датасетах (PubMed, Chatbot Arena, Multi-Session Chat, OpenReview) показало превосходство над аналогами в генеративных задачах (предсказание токенов) и классификации. В условиях жёстких DP-гарантий CTCL сохраняет до 17% больше полезности данных.

Источник: Google Research Blog