CTCL: Генерация приватных данных без больших LLM

Google представил CTCL — метод генерации дифференциально приватных синтетических данных без тонкой настройки миллиардных LLM. Лёгкая 140M модель создаёт данные по тематическим паттернам, снижая затраты и риски.

Оглавление

Проблема существующих подходов
Архитектура CTCL
Трёхэтапный процесс
Шаг 1: Анализ приватных данных
Шаг 2: Адаптация генератора
Шаг 3: Синтез данных
Валидация на практических задачах

Исследователи Google разработали CTCL — новый метод генерации дифференциально приватных синтетических данных, избегающий ресурсоёмкой тонкой настройки миллиардных языковых моделей. Работа представлена на ICML 2025.

Проблема существующих подходов

Традиционные методы синтеза данных с дифференциальной приватностью (DP) сталкиваются с трилеммой: строгая приватность ухудшает качество данных, требует гигантских вычислений или сложной ручной работы с промптами. Попытки обойти тонкую настройку LLM, вроде Aug-PE и Pre-Text, остаются зависимыми от ручного контекста и неэффективно используют приватную информацию.

Архитектура CTCL

Фреймворк использует два предобученных на публичных данных компонента:

CTCL-Topic: универсальная тематическая модель (1 000 кластеров на базе Wikipedia)
CTCL-Generator: 140-миллионный условный языковой модель, дообученный на 430 млн пар «описание-документ» из SlimPajama

Процесс генерации синтетических данных с сохранением конфиденциальности — Источник: research.google

Трёхэтапный процесс

Шаг 1: Анализ приватных данных

CTCL-Topic строит DP-гистограмму тематического распределения данных. Каждый документ ассоциируется с 10 ключевыми словами своей темы.

Обучение приватному домену с гистограммой тем DP и тонкой настройкой — Источник: research.google

Шаг 2: Адаптация генератора

CTCL-Generator дообучается с дифференциальной приватностью на парах «ключевые слова — документ» из приватного набора.

Шаг 3: Синтез данных

Генератор создаёт тексты по темам пропорционально гистограмме. Благодаря постобработке DP, объём синтетических данных не ограничен дополнительными затратами приватности.

Процесс разработки CTCL-Topic и CTCL-Generator — Источник: research.google

CTCL — тактичный ответ на AI-инфляцию: вместо погони за параметрами авторы переосмыслили конвейер данных. Локальная 140M модель не просто дешевле — она снимает зависимость от облачных API и риски утечек через промпты. Особенно ценно для медицины или финансов, где каждый запрос к LLM — потенциальная брешь. Но вопрос остаётся: как метод масштабируется на мультимодальные данные? Пока это элегантное решение для текста, но не панацея.

Валидация на практических задачах

Тестирование на четырёх датасетах (PubMed, Chatbot Arena, Multi-Session Chat, OpenReview) показало превосходство над аналогами в генеративных задачах (предсказание токенов) и классификации. В условиях жёстких DP-гарантий CTCL сохраняет до 17% больше полезности данных.

Источник: Google Research Blog