Оглавление

Как сообщает Scale, один из крупнейших инвестиционных банков мира успешно интегрировал генеративный ИИ в свои бизнес-процессы задолго до того, как эта технология стала мейнстримом.

Раннее погружение в генеративный ИИ

Еще в начале 2022 года, до всеобщего бума вокруг ChatGPT, Morgan Stanley начал эксперименты с GPT-3. Как рассказывает Кейтлин Эллиот, руководитель направления генеративного ИИ в банке, руководство компании увидело потенциал технологии после демонстрации её способности писать стихи.

«Мы всегда инвестировали в технологии, чтобы обеспечить сотрудников лучшими инструментами, — отмечает Эллиот. — Лидерство сделало ставку на эту технологию в те дни, когда о ней знал лишь ограниченный круг специалистов».

Решение реальной бизнес-проблемы

Банк столкнулся с классической проблемой управления знаниями: существующие виртуальные ассистенты, несмотря на годы разработки и 10 тысяч подготовленных FAQ, покрывали лишь 10-20% запросов сотрудников.

Команда Morgan Stanley сосредоточилась на трех типах контента:

  • Процедурные документы
  • Описания бизнес-процессов
  • Исследовательские отчеты

Интересно, что техническая команда банка фактически создала архитектуру RAG (Retrieval-Augmented Generation) до того, как этот термин стал популярным.

Практический подход к оценке качества

Ключевым осознанием стало то, что разработчики не являются экспертами в предметной области. Ответ ИИ «выглядел хорошо», но нельзя было быть уверенным в его точности для финансовых консультантов.

Morgan Stanley создал экспериментальную лабораторию, где реальные пользователи — финансовые советники и их помощники — тестировали систему и оценивали ответы по нескольким критериям:

  • Точность информации
  • Полнота ответа
  • Наличие галлюцинаций
  • Релевантность источников

Это позволило выявить, что многие проблемы были связаны не с языковой моделью, а с поиском и его компонентами.

История Morgan Stanley — идеальный пример того, как нужно внедрять ИИ в регулируемых отраслях. Вместо слепой веры в «магию демо» они построили системный процесс валидации, где предметные эксперты стали главными судьями качества. Особенно впечатляет их тест: 25 вопросов, на которые ИИ и человек отвечали параллельно. Результат — ИИ справлялся со всеми вопросами за час, в то время как люди не успевали. Это тот редкий случай, когда количественные метрики действительно отражают ценность технологии.

От экспериментов к production

После нескольких итераций улучшений команда убедилась в ценности системы. Несмотря на отдельные недостатки, покрытие запросов значительно увеличилось по сравнению с традиционными решениями.

Решающим стал сравнительный тест: 25 вопросов были заданы одновременно ИИ-системе и экспертам-людям. Результат был однозначным — ИИ отвечал на все вопросы в течение часа, в то время как люди не успевали завершить работу за это время.

Этот практический тест окончательно убедил руководство банка в целесообразности масштабного внедрения технологии.