В мире искусственного интеллекта появилась необычная языковая модель под названием Mr. Chatterbox, которая была обучена исключительно на литературе и документах викторианской Британии. Этот проект интересен тем, что он игнорирует современный контекст и опирается на массив данных из более чем 28 тысяч книг, изданных в период с 1837 по 1899 год.
Как сообщает издание GIGAZINE, разработчик Трип Вентурелла из Hugging Face представил эту систему как эксперимент по созданию «этически обученной» модели прошлого. Вы можете пообщаться с виртуальным джентльменом о железных дорогах, теории эволюции Дарвина или правилах хорошего тона, принятых в ту эпоху.
Источники знаний и технические характеристики
Фундаментом для обучения послужил колоссальный архив, предоставленный Британской библиотекой в партнерстве с корпорацией Microsoft. В открытый доступ было выложено более 25 миллионов страниц оцифрованных текстов, охватывающих период от географических открытий до философских трактатов XVIII и XIX веков. Вентурелла тщательно отобрал 28 035 документов, относящихся именно к викторианскому периоду, чтобы сформировать уникальный характер нейросети.
Модель Mr. Chatterbox имеет около 340 миллионов параметров, что сопоставимо по объему с известной архитектурой GPT-2-Medium. Основная цель такого подхода заключалась в создании узкоспециализированного цифрового собеседника, который не просто имитирует стиль, но и оперирует знаниями, доступными человеку той поры.
Тренировка модели на узком историческом срезе — это элегантный способ избежать современного информационного шума, однако объем в 340 миллионов параметров критически мал для глубокой семантики. Мы видим любопытный цифровой сувенир, который спотыкается на сложных логических связях из-за дефицита обучающих данных в открытом доступе. Попытка упаковать целую эпоху в масштаб GPT-2 выглядит амбициозно, но на практике это скорее интерактивный музейный экспонат, чем полноценный ИИ-собеседник.
Особенности работы и ограничения системы
На данный момент проект находится в стадии бета-тестирования, поэтому при общении с виртуальным джентльменом вы можете столкнуться с некоторой нестабильностью или странностями в ответах. Разработчик рекомендует просто обновлять генерацию, если реплики Mr. Chatterbox кажутся слишком неестественными или обрываются на полуслове.
Эксперты отмечают, что возможности модели остаются довольно ограниченными по сравнению с современными гигантами индустрии. Это подчеркивает важный технологический нюанс: для достижения высокого качества диалога ИИ-моделям, использующим только общественное достояние, требуется гораздо больше данных и вычислительных ресурсов, чем доступно в рамках локальных исторических архивов.
Оставить комментарий