Оглавление

В высоконагруженных медицинских контакт-центрах точная транскрипция разговоров в реальном времени стала критически важной для автоматизации рабочих процессов. Ошибки в расшифровке могут привести к неправильному сопоставлению электронных медицинских карт и нарушить автоматизированные процессы лечения.

Проблема масштабирования в медицинской среде

Switchboard, MD — компания, возглавляемая врачами и специализирующаяся на искусственном интеллекте и data science, ежемесячно обрабатывает более 20 000 звонков. Несмотря на впечатляющие результаты:

  • Сокращение времени ожидания на 75%
  • Снижение процента отказов от звонков на 59%

Компания столкнулась с фундаментальной проблемой: существующий подход к транскрипции не мог масштабироваться экономически при сохранении необходимой для клинических рабочих процессов точности.

Медицинская транскрипция — это не просто техническая задача, а вопрос безопасности пациентов. Ошибка в один процент может стоить человеческой жизни, поэтому компромиссы между стоимостью и точностью здесь неприемлемы.

Выбор оптимальной модели транскрипции

После тестирования различных решений, включая open source модели вроде Whisper от OpenAI, команда выбрала Amazon Nova Sonic. Ключевые преимущества модели:

  • Снижение затрат на транскрипцию на 80-90%
  • Уровень ошибок на словах (WER) всего 4% на проприетарном датасете компании
  • Низкая задержка для обработки в реальном времени
  • Стабильная работа даже в шумных условиях
Схема архитектуры Switchboard MD с потоком транскрипции звонков в реальном времени
Источник: aws.amazon.com

Техническая архитектура решения

Система использует Amazon Connect для захвата аудио от пациентов и медицинских сотрудников. Аудиопотоки обрабатываются через Amazon Kinesis Video Streams, который преобразует медиаданные в реальном времени перед маршрутизацией в контейнеризированные функции AWS Lambda.

Функции Lambda устанавливают двунаправленные стриминговые соединения с Amazon Nova Sonic через API InvokeModelWithBidirectionalStream клиента BedrockRuntime. Эта архитектура создает отдельные потоки транскрипции для каждого участника разговора, что особенно важно в медицинских сценариях, где необходимо точно идентифицировать, кто что сказал.

Архитектура с раздельными потоками для каждого участника — это не просто техническое изящество, а необходимость в медицине. Когда речь идет о назначении лечения или диагнозе, критически важно понимать, кто именно произнес каждое слово: врач или пациент.

По словам доктора Блейка Андерсона, основателя и CEO Switchboard, MD: «Наше видение — восстановить человеческую связь в медицине, убрав административные барьеры, которые мешают значимому взаимодействию. Nova Sonic дал нам скорость и точность, необходимые для транскрипции звонков в реальном времени — чтобы наши клиенты могли сосредоточиться на том, что действительно важно: разговоре с пациентом».

Сообщает AWS Machine Learning Blog.