Оглавление
Google Research анонсировал выпуск AfriMed-QA — первого крупномасштабного африканского медицинского набора данных для оценки языковых моделей в контексте здравоохранения Африки. Датасет включает около 15 000 клинических вопросов и ответов на английском языке, собранных из 60 медицинских школ в 16 странах.
Зачем нужен специализированный медицинский бенчмарк
Несмотря на впечатляющие результаты языковых моделей на существующих медицинских тестах вроде USMLE MedQA, остаётся неясным, насколько хорошо эти модели работают в условиях:
- Различных распределений заболеваний
- Культурных особенностей симптоматики
- Лингвистических вариаций даже внутри английского языка
- Региональных медицинских знаний
Без разнообразных бенчмарков, отражающих реальные контексты, невозможно адекватно обучать и оценивать модели для нетрадиционных западных условий.
Структура и особенности AfriMed-QA
Датасет включает три основных типа данных:
- 4000+ экспертных вопросов с множественным выбором (MCQ) с ответами
- 1200+ открытых вопросов (SAQ) с развёрнутыми ответами
- 10 000 потребительских запросов (CQ) от обычных пользователей
Данные были собраны при участии 621 специалиста из более чем 60 медицинских школ 12 стран, охватывая 32 медицинские специальности — от акушерства и гинекологии до нейрохирургии и инфекционных заболеваний.

Создание релевантных медицинских бенчмарков для конкретных регионов — это не просто академическое упражнение. Это вопрос жизненной важности, где культурный контекст может определять разницу между правильным и опасным диагнозом. Интересно, что общие модели показали себя лучше специализированных медицинских — возможно, мы переоцениваем необходимость узкой специализации ИИ в медицине.
Результаты оценки языковых моделей
Исследователи протестировали 30 общих и биомедицинских моделей различных размеров — как открытых, так и закрытых. Ключевые выводы:
- Крупные модели демонстрируют более высокую точность, чем маленькие
- Общие модели превосходят биомедицинские аналогичного размера
- Специализированные медицинские LLM могут переобучаться на специфических данных
Человеческая оценка ответов ИИ
Для 3000 случайно выбранных вопросов проводилась слепая оценка ответов моделей клиницистами и обычными пользователями. Использовалась 5-балльная шкала по критериям:
- Корректность и локализованность ответов
- Наличие пропусков информации или галлюцинаций
- Потенциал причинения вреда
- Релевантность и полезность для потребителей
Проект разработан в сотрудничестве с Intron Health, Sisonkebiotik, University of Cape Coast и другими партнёрами при поддержке PATH/The Gates Foundation. AfriMed-QA уже использовался для обучения MedGemma — последней открытой мультимодальной модели Google для медицинских текстов и изображений. Датасет и код оценки доступны на Hugging Face и GitHub.
По сообщению Google Research.
Оставить комментарий