Оглавление
Медицинские изображения, такие как рентгеновские снимки и МРТ, помимо диагностики и планирования лечения, все чаще используются для медицинских исследований, разработки государственной политики в области здравоохранения и создания новых диагностических инструментов на основе ИИ. Однако такое вторичное использование медицинских данных требует деидентификации защищенной медицинской информации для обеспечения конфиденциальности пациентов и соблюдения нормативных требований, таких как HIPAA.
Техническая реализация деидентификации PHI в DICOM изображениях
После установки пакета Pixels запуск конвейера DicomPhiPipeline выглядит следующим образом:
from dbx.pixels.dicom.dicom_phi import DicomPhiPipeline pipeline = DicomPhiPipeline(endpoint="databricks-llama-4-maverick", output_dir=output_dir, redact_even_if_undetected=False, inputCol="path", detectCol="response", outputCol="path_redacted") model = pipeline.fit(df) out_df = model.transform(df) display(out_df)
Конвейер считывает путь к файлу DICOM в колонке Spark DataFrame и выводит две колонки:
- ответ от Vision Language Model
- путь к файлу DICOM с замаскированной PHI
В рамках DicomPhiPipeline редактирование выполняется с помощью EasyOCR. Процесс может выполняться независимо от обнаружения PHI VLM или условно на основе обнаружения VLM. Рекомендуется второй подход, поскольку EasyOCR имеет тенденцию чрезмерно редактировать не-PHI текст.
Сравнение с другими методами обнаружения PHI
Конкурирующие решения
Были протестированы конвейер обнаружения PHI в изображениях Pixels вместе с коммерческим вендором и популярным открытым решением Presidio. Оба решения использовали OCR для извлечения текста из изображений с последующим применением языковой модели для классификации PHI.
Результаты тестирования
| Задача: обнаружение PHI в DICOM изображениях | MIDI-B (70) | ||||
|---|---|---|---|---|---|
| Решение | Оценка стоимости на 100k изображений | Полнота | Точность | Специфичность | NPV |
| Коммерческое решение | $4400 в месяц предоплатой | 1.0 | 0.71 | 0.93 | 1.0 |
| Presidio (OSS) | $0 | 0.7 | 0.7 | 0.95 | 0.95 |
| Claude 3.7 Sonnet | $270 | 1.0 | 1.0 | 1.0 | 1.0 |
| GPT-4o | $150 | 1.0 | 1.0 | 1.0 | 1.0 |
| Llama 4 Maverick (OSS) | $45 | 1.0 | 0.91 | 0.98 | 1.0 |
Как Claude 3.7 Sonnet, так и GPT-4o продемонстрировали идеальную производительность обнаружения PHI. Llama 4 Maverick показал 100% полноту, но 91% точность, иногда ошибочно идентифицируя не-PHI текст как PHI. Тем не менее, Llama 4 Maverick обеспечивает хорошую производительность, особенно для пользователей, предпочитающих чрезмерное редактирование для избежания пропуска PHI.
Комбинация VLM для понимания контекста и OCR для точного позиционирования — это элегантное решение давней проблемы медицинской конфиденциальности. Особенно впечатляет 17-кратное ускорение обработки: переход с 105 минут до 6 для 1000 DICOM файлов демонстрирует реальную ценность масштабируемости в медицинских исследованиях.
Архитектурные принципы решения
Решение основано на трех ключевых принципах:
- VLM заменяют традиционные OCR, которые часто плохо справляются с распознаванием текста и вводят опечатки
- EasyOCR для обнаружения ограничивающих рамок, поскольку VLM не могут напрямую изменять изображения
- Spark параллелизм для производственной масштабируемости через Pandas UDF
При работе с крупным фармацевтическим клиентом параллелизм Spark ускорил процесс деидентификации с 105 минут до 6 минут для пробного запуска 1000 DICOM кадров. Масштабирование до полной нагрузки в 100 000 DICOM кадров привело к значительному ускорению и экономии затрат.
Хотя Pixels разработан для файлов DICOM, клиенты адаптируют его для других форматов изображений, включая JPEG, Whole Slide Images, SVS и другие. Обновления публикуются в github репозитории.
Сообщает Databricks.
Оставить комментарий