Оглавление
Студент-энтузиаст, создающий языковые модели на текстах викторианской эпохи «просто для развлечения», получил неожиданный урок истории, когда его ИИ точно описал реальные протесты в Лондоне 1834 года — события, о которых разработчик не знал до проверки в Google. По сообщению Ars Technica, это демонстрирует поразительную способность даже небольших моделей выявлять скрытые исторические паттерны.
Цифровая машина времени
Хайк Григорян, студент компьютерных наук из колледжа Муленберг, создал TimeCapsuleLLM — небольшую языковую модель, обученную исключительно на текстах из Лондона периода 1800-1875 годов. Модель всего с 700 миллионами параметров (для сравнения: GPT-3 имеет 175 миллиардов) генерирует текст с библейскими отсылками и риторикой викторианской эпохи.
Когда Григорян ввел промпт «It was the year of our Lord 1834», модель продолжила описание протестов на улицах Лондона и упомянула лорда Палмерстона. Проверка показала, что в 1834 году действительно произошли значительные волнения после Закона о поправках к закону о бедных, а Генри Джон Темпл, 3-й виконт Палмерстон, в тот период занимал пост министра иностранных дел.
Ирония в том, что обычно ИИ обвиняют в галлюцинациях, а здесь маленькая модель на скромном датасете случайно воспроизвела историческую правду. Это напоминает, что даже простые архитектуры способны выявлять сложные паттерны при качественных данных.
Технические особенности подхода
В отличие от стандартного дообучения готовых моделей, Григорян использует метод «Selective Temporal Training» — обучение с нуля на исторических текстах:
- Объем данных: 6.25GB (7000 книг, юридических документов и газет)
- Кастомный токенизатор исключает современную лексику
- Архитектуры: nanoGPT и Microsoft Phi 1.5
- Обучение на арендованном GPU A100
Модель прошла три этапа развития: от викторианской бессмыслицы через грамматически правильные но выдуманные факты к текущей версии с историческими отсылками.
Исторические ИИ-модели: новая область исследований
Проект Григоряна — часть растущего направления Historical Large Language Models (HLLMs). Среди аналогичных разработок:
- MonadGPT — обучена на 11000 текстах 1400-1700 годов
- XunziALLM — генерирует классическую китайскую поэзию
Такие модели позволяют исследователям взаимодействовать с лингвистическими паттернами прошлых эпох, изучая синтаксис и словарь в интерактивном режиме.
Григорян планирует расширить проект до моделей для других городов и культур, приглашая коллабораторов к участию. Его код и веса моделей доступны на GitHub.
В эпоху, когда ИИ чаще обвиняют в конфабуляциях, эта история демонстрирует обратный феномен — случайное воспроизведение исторической правды. Как отмечает сам разработчик: «Это похоже на цифровое путешествие во времени». И учитывая, что результат достигнут на всего 5-6GB данных, потенциал масштабирования выглядит действительно интигующим.
Оставить комментарий