Оглавление

Новое исследование демонстрирует, что современные языковые модели способны ставить более точные диагнозы в сложных клинических случаях по сравнению с опытными врачами. Результаты, опубликованные в New England Journal of Medicine, показывают превосходство ИИ в 72% случаев.

Методология исследования

В исследовании участвовали 302 сложных диагностических случая из реальной медицинской практики. Каждый случай оценивали:

  • 25 врачей-экспертов с опытом более 10 лет
  • 5 различных языковых моделей (GPT-4, Claude 3, Med-PaLM 2 и другие)
  • Специализированная медицинская модель, обученная на 2 миллионах клинических записей

Ключевые результаты

Языковые модели показали значительно более высокую точность диагностики:

  • Общая точность врачей: 58%
  • Общая точность ИИ: 76%
  • В особо сложных случаях разрыв достигал 35%
  • Модели реже пропускали редкие заболевания

Ирония в том, что машины начинают лучше справляться с задачами, требующими именно человеческого опыта и интуиции. Вместо замены рутинной работы они превосходят нас в самом сложном — диагностике неочевидных случаев. Это заставляет пересмотреть представления о том, какие медицинские задачи действительно сложны для ИИ.

Ограничения и предостережения

Несмотря на впечатляющие результаты, исследователи подчеркивают важные ограничения:

  • Модели не имеют доступа к физическому осмотру пациента
  • Отсутствует клиническая интуиция и опыт работы с пациентами
  • Возможны «галлюцинации» и генерация непроверенной информации
  • Требуется тщательная валидация в реальных клинических условиях

Будущее медицинской диагностики

Исследование предполагает, что оптимальным подходом будет комбинация человеческого опыта и искусственного интеллекта. Врачи смогут использовать ИИ как «второе мнение» для сложных случаев, уменьшая количество диагностических ошибок.

По сообщению MIT Technology Review, несколько медицинских учреждений уже начали пилотные внедрения подобных систем.