Оглавление

Студент-энтузиаст, создающий языковые модели на текстах викторианской эпохи «просто для развлечения», получил неожиданный урок истории, когда его ИИ точно описал реальные протесты в Лондоне 1834 года — события, о которых разработчик не знал до проверки в Google. По сообщению Ars Technica, это демонстрирует поразительную способность даже небольших моделей выявлять скрытые исторические паттерны.

Цифровая машина времени

Хайк Григорян, студент компьютерных наук из колледжа Муленберг, создал TimeCapsuleLLM — небольшую языковую модель, обученную исключительно на текстах из Лондона периода 1800-1875 годов. Модель всего с 700 миллионами параметров (для сравнения: GPT-3 имеет 175 миллиардов) генерирует текст с библейскими отсылками и риторикой викторианской эпохи.

Когда Григорян ввел промпт «It was the year of our Lord 1834», модель продолжила описание протестов на улицах Лондона и упомянула лорда Палмерстона. Проверка показала, что в 1834 году действительно произошли значительные волнения после Закона о поправках к закону о бедных, а Генри Джон Темпл, 3-й виконт Палмерстон, в тот период занимал пост министра иностранных дел.

Ирония в том, что обычно ИИ обвиняют в галлюцинациях, а здесь маленькая модель на скромном датасете случайно воспроизвела историческую правду. Это напоминает, что даже простые архитектуры способны выявлять сложные паттерны при качественных данных.

Технические особенности подхода

В отличие от стандартного дообучения готовых моделей, Григорян использует метод «Selective Temporal Training» — обучение с нуля на исторических текстах:

  • Объем данных: 6.25GB (7000 книг, юридических документов и газет)
  • Кастомный токенизатор исключает современную лексику
  • Архитектуры: nanoGPT и Microsoft Phi 1.5
  • Обучение на арендованном GPU A100

Модель прошла три этапа развития: от викторианской бессмыслицы через грамматически правильные но выдуманные факты к текущей версии с историческими отсылками.

Исторические ИИ-модели: новая область исследований

Проект Григоряна — часть растущего направления Historical Large Language Models (HLLMs). Среди аналогичных разработок:

  • MonadGPT — обучена на 11000 текстах 1400-1700 годов
  • XunziALLM — генерирует классическую китайскую поэзию

Такие модели позволяют исследователям взаимодействовать с лингвистическими паттернами прошлых эпох, изучая синтаксис и словарь в интерактивном режиме.

Григорян планирует расширить проект до моделей для других городов и культур, приглашая коллабораторов к участию. Его код и веса моделей доступны на GitHub.

В эпоху, когда ИИ чаще обвиняют в конфабуляциях, эта история демонстрирует обратный феномен — случайное воспроизведение исторической правды. Как отмечает сам разработчик: «Это похоже на цифровое путешествие во времени». И учитывая, что результат достигнут на всего 5-6GB данных, потенциал масштабирования выглядит действительно интигующим.