Оглавление

Google Research анонсировал выпуск AfriMed-QA — первого крупномасштабного африканского медицинского набора данных для оценки языковых моделей в контексте здравоохранения Африки. Датасет включает около 15 000 клинических вопросов и ответов на английском языке, собранных из 60 медицинских школ в 16 странах.

Зачем нужен специализированный медицинский бенчмарк

Несмотря на впечатляющие результаты языковых моделей на существующих медицинских тестах вроде USMLE MedQA, остаётся неясным, насколько хорошо эти модели работают в условиях:

  • Различных распределений заболеваний
  • Культурных особенностей симптоматики
  • Лингвистических вариаций даже внутри английского языка
  • Региональных медицинских знаний

Без разнообразных бенчмарков, отражающих реальные контексты, невозможно адекватно обучать и оценивать модели для нетрадиционных западных условий.

Структура и особенности AfriMed-QA

Датасет включает три основных типа данных:

  • 4000+ экспертных вопросов с множественным выбором (MCQ) с ответами
  • 1200+ открытых вопросов (SAQ) с развёрнутыми ответами
  • 10 000 потребительских запросов (CQ) от обычных пользователей

Данные были собраны при участии 621 специалиста из более чем 60 медицинских школ 12 стран, охватывая 32 медицинские специальности — от акушерства и гинекологии до нейрохирургии и инфекционных заболеваний.

Карта африканских стран, показывающая распределение вклада данных
Источник: research.google.com

Создание релевантных медицинских бенчмарков для конкретных регионов — это не просто академическое упражнение. Это вопрос жизненной важности, где культурный контекст может определять разницу между правильным и опасным диагнозом. Интересно, что общие модели показали себя лучше специализированных медицинских — возможно, мы переоцениваем необходимость узкой специализации ИИ в медицине.

Результаты оценки языковых моделей

Исследователи протестировали 30 общих и биомедицинских моделей различных размеров — как открытых, так и закрытых. Ключевые выводы:

  • Крупные модели демонстрируют более высокую точность, чем маленькие
  • Общие модели превосходят биомедицинские аналогичного размера
  • Специализированные медицинские LLM могут переобучаться на специфических данных

Человеческая оценка ответов ИИ

Для 3000 случайно выбранных вопросов проводилась слепая оценка ответов моделей клиницистами и обычными пользователями. Использовалась 5-балльная шкала по критериям:

  • Корректность и локализованность ответов
  • Наличие пропусков информации или галлюцинаций
  • Потенциал причинения вреда
  • Релевантность и полезность для потребителей

Проект разработан в сотрудничестве с Intron Health, Sisonkebiotik, University of Cape Coast и другими партнёрами при поддержке PATH/The Gates Foundation. AfriMed-QA уже использовался для обучения MedGemma — последней открытой мультимодальной модели Google для медицинских текстов и изображений. Датасет и код оценки доступны на Hugging Face и GitHub.

По сообщению Google Research.