Оглавление
В мире, где большинство крупных языковых моделей обучаются на данных с неясным авторским правом, немецкий проект German Commons демонстрирует принципиально иной подход. Это крупнейший открыто лицензированный датасет немецких текстов, специально созданный для обучения юридически чистых AI-моделей.
Юридическая прозрачность как основа
Проект под руководством Университета Касселя, Университета Лейпцига и hessian.AI собрал 154,56 миллиарда токенов из 35,78 миллионов документов. Каждый текст получен от учреждений с четкими, проверяемыми лицензиями — в отличие от распространенной практики скрейпинга веб-данных сомнительного правового статуса.
Датасет объединяет 41 источник из семи категорий:
- Веб-контент
- Политические документы
- Юридические тексты
- Новости
- Бизнес-материалы
- Культурные произведения
- Научные публикации
Среди контрибьюторов — Немецкая национальная библиотека, Австрийская национальная библиотека, Немецкий цифровой словарь (DWDS), Институт немецкого языка Лейбница (IDS) и проекты Wikimedia.
Структура и обработка данных
Новости составляют крупнейшую часть коллекции, за ними следует культурный контент — преимущественно исторические газетные архивы и оцифрованные книги с XVIII по XX век. Веб-контент занимает меньшую долю, а научные и бизнес-материалы представлены слабее.
Большинство текстов находятся в общественном достоянии, а все лицензии разрешают:
- Перераспределение
- Модификацию
- Коммерческое использование
Команда разработала многоэтапный пайплайн для:
- Фильтрации качества
- Дедупликации
- Исправления форматирования текста
Поскольку значительная часть данных получена через OCR-сканирование, использовались специальные фильтры для исправления типичных ошибок конвертации. Особую сложность представляли немецкие умлауты.

Контроль качества отсеял 46% исходных данных — в основном не немецкие тексты и очень короткие документы. В итоговую версию вошел 51% собранного материала.
Анализ 385 467 текстовых образцов показал минимальное содержание токсичного контента. В категориях насилия и дискриминации около 95% текстов оценены как безвредные.
Пока американские гиганты судятся за каждый скрейпленный сайт, немцы просто взяли то, что уже легально принадлежит обществу. Ирония в том, что исторические архивы XVIII века оказались более надежным источником для AI будущего, чем современный интернет. German Commons — это не просто датасет, а политическое заявление: инновации не должны строиться на правовом беспределе.
Открытая экосистема для сообщества
Команда открыла исходный код своей библиотеки llmdata для обработки данных, обеспечивая полную воспроизводимость. Пайплайн оптимизирован для немецкого языка и может расширяться сообществом.
German Commons доступен бесплатно на Hugging Face, что упрощает обучение немецких языковых моделей без риска авторско-правовых конфликтов.
Этот релиз — часть растущего тренда в AI на открытые, юридически корректные датасеты. Проект Common Pile от Университета Торонто и EleutherAI недавно выпустил 8 ТБ английских данных только из открытых источников. Ранние результаты показывают конкурентоспособность моделей, обученных на таких данных, хотя сохраняются некоторые пробелы в повседневном языке.
Ранее немецкий проект OpenGPT-X использовал модель Teuken-7B для демонстрации создания многоязычных европейских AI-моделей. Эта 7-миллиардная модель обучалась на всех 24 официальных языках ЕС, но данные не проходили полную проверку лицензий.
По материалам The Decoder
Оставить комментарий