ISSN: 0974-276X
Victor P Andreev, Brenda W Gillespie, Brian T Helfand y Robert M Merion
Los métodos de clasificación no supervisados están ganando aceptación en los estudios ómicos de enfermedades comunes complejas, que a menudo se definen vagamente y son probablemente colecciones de subtipos de enfermedades. La clasificación no supervisada basada en las firmas moleculares identificadas en los estudios ómicos tiene el potencial de reflejar los mecanismos moleculares de los subtipos de la enfermedad y conducir a intervenciones más específicas y exitosas para los subtipos identificados. Existen múltiples algoritmos de clasificación, pero ninguno es ideal para todo tipo de datos. Es importante destacar que no existen métodos establecidos para estimar el tamaño de la muestra en la clasificación no supervisada (a diferencia del análisis de poder en la prueba de hipótesis). Por lo tanto, desarrollamos un enfoque de simulación que permite la comparación de errores de clasificación y la estimación del tamaño de muestra requerido para un tamaño de efecto dado, número y matriz de correlación de las proteínas diferencialmente abundantes en estudios proteómicos específicos. Todos los experimentos se realizaron in silico. Los datos simulados imitaron los esperados del estudio del plasma de pacientes con disfunción del tracto urinario inferior con el ensayo proteómico de aptámeros Somascan (SomaLogic Inc, Boulder, CO), que apuntó a 1129 proteínas, incluidas 330 involucradas en la inflamación, 180 en la respuesta al estrés , 80 en envejecimiento, etc. Se compararon tres métodos populares de agrupamiento (jerárquico, k-medias y k-medoides). El agrupamiento de K-medias funcionó mucho mejor para los datos simulados que los otros dos métodos y permitió la clasificación con errores de clasificación por debajo del 5 % en la cohorte simulada de 100 pacientes en función de las firmas moleculares de 40 proteínas diferencialmente abundantes (tamaño del efecto 1,5) de entre los Panel de proteínas 1129.