Оглавление

Медицинские изображения, такие как рентгеновские снимки и МРТ, помимо диагностики и планирования лечения, все чаще используются для медицинских исследований, разработки государственной политики в области здравоохранения и создания новых диагностических инструментов на основе ИИ. Однако такое вторичное использование медицинских данных требует деидентификации защищенной медицинской информации для обеспечения конфиденциальности пациентов и соблюдения нормативных требований, таких как HIPAA.

Техническая реализация деидентификации PHI в DICOM изображениях

После установки пакета Pixels запуск конвейера DicomPhiPipeline выглядит следующим образом:

from dbx.pixels.dicom.dicom_phi import DicomPhiPipeline

pipeline = DicomPhiPipeline(endpoint="databricks-llama-4-maverick",
 output_dir=output_dir,
 redact_even_if_undetected=False,
 inputCol="path",
 detectCol="response",
 outputCol="path_redacted")
model = pipeline.fit(df)
out_df = model.transform(df)
display(out_df)

Конвейер считывает путь к файлу DICOM в колонке Spark DataFrame и выводит две колонки:

  • ответ от Vision Language Model
  • путь к файлу DICOM с замаскированной PHI

В рамках DicomPhiPipeline редактирование выполняется с помощью EasyOCR. Процесс может выполняться независимо от обнаружения PHI VLM или условно на основе обнаружения VLM. Рекомендуется второй подход, поскольку EasyOCR имеет тенденцию чрезмерно редактировать не-PHI текст.

Сравнение с другими методами обнаружения PHI

Конкурирующие решения

Были протестированы конвейер обнаружения PHI в изображениях Pixels вместе с коммерческим вендором и популярным открытым решением Presidio. Оба решения использовали OCR для извлечения текста из изображений с последующим применением языковой модели для классификации PHI.

Результаты тестирования

Задача: обнаружение PHI в DICOM изображениях MIDI-B (70)
Решение Оценка стоимости на 100k изображений Полнота Точность Специфичность NPV
Коммерческое решение $4400 в месяц предоплатой 1.0 0.71 0.93 1.0
Presidio (OSS) $0 0.7 0.7 0.95 0.95
Claude 3.7 Sonnet $270 1.0 1.0 1.0 1.0
GPT-4o $150 1.0 1.0 1.0 1.0
Llama 4 Maverick (OSS) $45 1.0 0.91 0.98 1.0

Как Claude 3.7 Sonnet, так и GPT-4o продемонстрировали идеальную производительность обнаружения PHI. Llama 4 Maverick показал 100% полноту, но 91% точность, иногда ошибочно идентифицируя не-PHI текст как PHI. Тем не менее, Llama 4 Maverick обеспечивает хорошую производительность, особенно для пользователей, предпочитающих чрезмерное редактирование для избежания пропуска PHI.

Комбинация VLM для понимания контекста и OCR для точного позиционирования — это элегантное решение давней проблемы медицинской конфиденциальности. Особенно впечатляет 17-кратное ускорение обработки: переход с 105 минут до 6 для 1000 DICOM файлов демонстрирует реальную ценность масштабируемости в медицинских исследованиях.

Архитектурные принципы решения

Решение основано на трех ключевых принципах:

  • VLM заменяют традиционные OCR, которые часто плохо справляются с распознаванием текста и вводят опечатки
  • EasyOCR для обнаружения ограничивающих рамок, поскольку VLM не могут напрямую изменять изображения
  • Spark параллелизм для производственной масштабируемости через Pandas UDF

При работе с крупным фармацевтическим клиентом параллелизм Spark ускорил процесс деидентификации с 105 минут до 6 минут для пробного запуска 1000 DICOM кадров. Масштабирование до полной нагрузки в 100 000 DICOM кадров привело к значительному ускорению и экономии затрат.

Хотя Pixels разработан для файлов DICOM, клиенты адаптируют его для других форматов изображений, включая JPEG, Whole Slide Images, SVS и другие. Обновления публикуются в github репозитории.

Сообщает Databricks.