ISSN: 2155-9570
Morten B. Hansen, Hongying Lilian Tang, Su Wang, Lutfiah Al Turk, Rita Piermarocchi, Martynas Speckauskas, Hans-Werner Hense, Irene Leung y Tunde Peto
Objetivo: Actualmente, 1/12 de la población mundial tiene diabetes mellitus (DM), muchos son o serán examinados tomándose imágenes de la retina. Este estudio actual tiene como objetivo comparar la capacidad del software DAPHNE para detectar DR en tres poblaciones europeas diferentes en comparación con la clasificación humana realizada en el Moorfields Eye Hospital Reading Center (MEHRC). Participantes: Se tomaron imágenes de retina de participantes del estudio HAPIEE (Lituania, n=1014), el estudio PAMDI (Italia, n=882) y el estudio MARS (Alemania, n=909). Métodos: todas las imágenes anonimizadas fueron calificadas por evaluadores humanos en MEHRC para determinar la presencia de DR. Independientemente y sin ningún conocimiento de los resultados del calificador humano, el software DAPHNE analizó las imágenes y dividió a los participantes en grupos DR y no DR. Principales medidas de resultado: Los resultados primarios fueron la sensibilidad, la especificidad, el valor predictivo positivo (VPP) y el valor predictivo negativo (VPN) del software DAPHNE con respecto a la identificación de DR o no DR en imágenes de la retina en comparación con el clasificador humano como estándar de referencia. Resultados: Se inscribieron un total de 2805 participantes de los tres sitios de estudio. La sensibilidad del software DAPHNE fue superior al 93 % en los tres estudios, la especificidad fue superior al 80 %, el VPP fue superior al 28 % y el VPN no fue inferior al 98,8 % en ninguno de los estudios. El software DAPHNE no pasó por alto ningún DR que amenazara la visión. Las áreas bajo la curva (AUC) para los tres estudios estuvieron por encima de 0,96. DAPHNE redujo la carga de trabajo humano manual en un 70 %, pero tuvo una tasa total de falsos positivos del 63 %. Conclusiones: El software DAPHNE demostró ser confiable para detectar DR en tres poblaciones europeas diferentes, utilizando tres configuraciones de imagen diferentes. Se requieren más pruebas para ver la escalabilidad, el rendimiento en los sistemas de detección de DR en vivo y en configuraciones de cámara diferentes a estos estudios.