Оглавление
В высоконагруженных медицинских контакт-центрах точная транскрипция разговоров в реальном времени стала критически важной для автоматизации рабочих процессов. Ошибки в расшифровке могут привести к неправильному сопоставлению электронных медицинских карт и нарушить автоматизированные процессы лечения.
Проблема масштабирования в медицинской среде
Switchboard, MD — компания, возглавляемая врачами и специализирующаяся на искусственном интеллекте и data science, ежемесячно обрабатывает более 20 000 звонков. Несмотря на впечатляющие результаты:
- Сокращение времени ожидания на 75%
- Снижение процента отказов от звонков на 59%
Компания столкнулась с фундаментальной проблемой: существующий подход к транскрипции не мог масштабироваться экономически при сохранении необходимой для клинических рабочих процессов точности.
Медицинская транскрипция — это не просто техническая задача, а вопрос безопасности пациентов. Ошибка в один процент может стоить человеческой жизни, поэтому компромиссы между стоимостью и точностью здесь неприемлемы.
Выбор оптимальной модели транскрипции
После тестирования различных решений, включая open source модели вроде Whisper от OpenAI, команда выбрала Amazon Nova Sonic. Ключевые преимущества модели:
- Снижение затрат на транскрипцию на 80-90%
- Уровень ошибок на словах (WER) всего 4% на проприетарном датасете компании
- Низкая задержка для обработки в реальном времени
- Стабильная работа даже в шумных условиях

Техническая архитектура решения
Система использует Amazon Connect для захвата аудио от пациентов и медицинских сотрудников. Аудиопотоки обрабатываются через Amazon Kinesis Video Streams, который преобразует медиаданные в реальном времени перед маршрутизацией в контейнеризированные функции AWS Lambda.
Функции Lambda устанавливают двунаправленные стриминговые соединения с Amazon Nova Sonic через API InvokeModelWithBidirectionalStream клиента BedrockRuntime. Эта архитектура создает отдельные потоки транскрипции для каждого участника разговора, что особенно важно в медицинских сценариях, где необходимо точно идентифицировать, кто что сказал.
Архитектура с раздельными потоками для каждого участника — это не просто техническое изящество, а необходимость в медицине. Когда речь идет о назначении лечения или диагнозе, критически важно понимать, кто именно произнес каждое слово: врач или пациент.
По словам доктора Блейка Андерсона, основателя и CEO Switchboard, MD: «Наше видение — восстановить человеческую связь в медицине, убрав административные барьеры, которые мешают значимому взаимодействию. Nova Sonic дал нам скорость и точность, необходимые для транскрипции звонков в реальном времени — чтобы наши клиенты могли сосредоточиться на том, что действительно важно: разговоре с пациентом».
Сообщает AWS Machine Learning Blog.
Оставить комментарий