Оглавление
Исследовательская группа под руководством Алека Рэдфорда, одного из ключевых архитекторов первых моделей GPT, представила необычный проект под названием Talkie. Это большая языковая модель с 13 миллиардами параметров, чье «мировоззрение» намеренно ограничено эпохой начала XX века, поскольку обучение проводилось исключительно на текстах, опубликованных до 1931 года.
Как сообщает The Decoder, целью эксперимента было создание «винтажного» интеллекта, который не подозревает о существовании цифровых компьютеров, ядерной физики или итогов Второй мировой войны. Разработчики использовали 260 миллиардов токенов, извлеченных из старых газет, патентов и судебных архивов, чтобы проверить, как ИИ будет экстраполировать знания прошлого на наше настоящее.
Мир пара и железных дорог в 2026 году
Когда Talkie просят описать 2026 год, модель рисует футуристическую картину, достойную романов Жюля Верна или Герберта Уэллса. В ее представлении грядущее десятилетие ознаменуется господством огромных трансатлантических пароходов, способных пересечь океан за десять дней, и плотной сетью железных дорог, связывающих европейские столицы. Модель убеждена, что население Европы достигнет миллиарда человек, а технический прогресс будет сосредоточен на совершенствовании механики и паровых двигателей.
Любопытно, что Talkie демонстрирует крайний политический оптимизм относительно глобальных конфликтов. На вопрос о вероятности новой мировой войны модель отвечает отрицательно, аргументируя это тем, что «безумие 1914–1918 годов осталось в прошлом» и нации усвоили свой горький урок. Впрочем, алгоритм сохраняет некоторую аналитическую осторожность, упоминая «тлеющую вражду» между отдельными государствами, что выглядит как тонкая ирония истории, учитывая реальные события конца 1930-х.
Надежда на то, что чистый масштаб данных позволит модели «предсказать» теорию относительности или квантовый скачок, выглядит избыточно романтичной. Без понимания физического контекста Talkie остается лишь великолепным имитатором стиля, запертым в лингвистическом гетто ушедшей эпохи. Это триумф исторической стилизации, но пока не научного прозрения.
Технические вызовы и «загрязнение» данными
Процесс обучения столкнулся с неожиданными препятствиями, которые знакомы любому разработчику, работающему с архивными данными. Основной проблемой стало качество оптического распознавания символов (OCR): стандартные системы выдавали лишь 30% эффективности по сравнению с ручной транскрипцией. Группе пришлось разрабатывать кастомную систему «винтажного» распознавания, чтобы довести этот показатель до приемлемого уровня.
Другим критическим моментом стало информационное «загрязнение». Несмотря на строгие фильтры, в обучающую выборку просачивались фрагменты из более поздних переизданий книг с современными предисловиями. В результате модель иногда демонстрирует анахронизмы, упоминая события времен президентства Рузвельта или Организацию Объединенных Наций. Для корректировки поведения авторы использовали Reinforcement Learning (обучение с подкреплением), где в роли судьи выступала современная модель Claude 3.5 Sonnet, помогая Talkie придерживаться этикета и манеры общения начала века.
Программирование без компьютеров
Одним из самых интригующих тестов стала проверка способностей Talkie к программированию на Python — языке, который физически не мог существовать в ее «мире». Хотя модель значительно уступает современным аналогам на бенчмарке HumanEval, она оказалась способна решать простейшие задачи. Например, Talkie смогла реализовать функцию декодирования шифра, заменив сложение вычитанием, что указывает на интуитивное понимание обратных функций.
- Модель доступна в базовой и чат-версиях на платформе Hugging Face.
- К лету 2026 года планируется масштабирование до уровня GPT-3 с объемом данных более 1 триллиона токенов.
- Разработчики намерены проверить, сможет ли модель «вывести» научные открытия, сделанные после 1930 года, основываясь только на предпосылках того времени.
Участие Алека Рэдфорда, покинувшего OpenAI в конце 2024 года, придает проекту особый вес. Для экспертного сообщества Talkie — это не просто забавный чат-бот, а чистый эксперимент по обобщающей способности нейросетей. Если модель, обученная на данных столетней давности, сможет демонстрировать логику в современных задачах, это подтвердит универсальность архитектуры трансформеров, независимую от конкретного наполнения датасета.
Оставить комментарий