Оглавление

В мире, где большинство крупных языковых моделей обучаются на данных с неясным авторским правом, немецкий проект German Commons демонстрирует принципиально иной подход. Это крупнейший открыто лицензированный датасет немецких текстов, специально созданный для обучения юридически чистых AI-моделей.

Юридическая прозрачность как основа

Проект под руководством Университета Касселя, Университета Лейпцига и hessian.AI собрал 154,56 миллиарда токенов из 35,78 миллионов документов. Каждый текст получен от учреждений с четкими, проверяемыми лицензиями — в отличие от распространенной практики скрейпинга веб-данных сомнительного правового статуса.

Датасет объединяет 41 источник из семи категорий:

  • Веб-контент
  • Политические документы
  • Юридические тексты
  • Новости
  • Бизнес-материалы
  • Культурные произведения
  • Научные публикации

Среди контрибьюторов — Немецкая национальная библиотека, Австрийская национальная библиотека, Немецкий цифровой словарь (DWDS), Институт немецкого языка Лейбница (IDS) и проекты Wikimedia.

Структура и обработка данных

Новости составляют крупнейшую часть коллекции, за ними следует культурный контент — преимущественно исторические газетные архивы и оцифрованные книги с XVIII по XX век. Веб-контент занимает меньшую долю, а научные и бизнес-материалы представлены слабее.

Большинство текстов находятся в общественном достоянии, а все лицензии разрешают:

  • Перераспределение
  • Модификацию
  • Коммерческое использование

Команда разработала многоэтапный пайплайн для:

  1. Фильтрации качества
  2. Дедупликации
  3. Исправления форматирования текста

Поскольку значительная часть данных получена через OCR-сканирование, использовались специальные фильтры для исправления типичных ошибок конвертации. Особую сложность представляли немецкие умлауты.

Диаграмма German Commons: классификация сложности языка, техническая и повседневная лексика

Контроль качества отсеял 46% исходных данных — в основном не немецкие тексты и очень короткие документы. В итоговую версию вошел 51% собранного материала.

Анализ 385 467 текстовых образцов показал минимальное содержание токсичного контента. В категориях насилия и дискриминации около 95% текстов оценены как безвредные.

Пока американские гиганты судятся за каждый скрейпленный сайт, немцы просто взяли то, что уже легально принадлежит обществу. Ирония в том, что исторические архивы XVIII века оказались более надежным источником для AI будущего, чем современный интернет. German Commons — это не просто датасет, а политическое заявление: инновации не должны строиться на правовом беспределе.

Открытая экосистема для сообщества

Команда открыла исходный код своей библиотеки llmdata для обработки данных, обеспечивая полную воспроизводимость. Пайплайн оптимизирован для немецкого языка и может расширяться сообществом.

German Commons доступен бесплатно на Hugging Face, что упрощает обучение немецких языковых моделей без риска авторско-правовых конфликтов.

Этот релиз — часть растущего тренда в AI на открытые, юридически корректные датасеты. Проект Common Pile от Университета Торонто и EleutherAI недавно выпустил 8 ТБ английских данных только из открытых источников. Ранние результаты показывают конкурентоспособность моделей, обученных на таких данных, хотя сохраняются некоторые пробелы в повседневном языке.

Ранее немецкий проект OpenGPT-X использовал модель Teuken-7B для демонстрации создания многоязычных европейских AI-моделей. Эта 7-миллиардная модель обучалась на всех 24 официальных языках ЕС, но данные не проходили полную проверку лицензий.

По материалам The Decoder