Revista de Proteómica y Bioinformática

Revista de Proteómica y Bioinformática
Acceso abierto

ISSN: 0974-276X

abstracto

Selección de características mediante curvas ROC con arranque

Ping Xu, Xiang Liu, David Hadley, Shuai Huang, Jeffrey Krischer y Craig Beam

Antecedentes: Al modelar una matriz de datos N por m, es decir, N muestras en un espacio dimensional m, el problema surge cuando m es mayor que N. El tamaño de la muestra no se puede aumentar, especialmente en investigación médica, debido al número limitado de sujetos enfermos. La selección de características se usa a menudo para seleccionar un subconjunto de m variables relevantes, a menudo menores que N, para usar en la construcción de modelos.

Método: se propone un método de arranque de varios pasos para cuantificar la relevancia de los predictores candidatos con el resultado basado en sus áreas bajo la curva de características operativas del receptor (ROCAUC) a partir de remuestreos de arranque y luego seleccionar solo las variables significativas, que cumplen con los criterios especificados previamente. , como un proceso de selección de funciones.

Resultados: se realizó una simulación exhaustiva utilizando miles de variables predictoras y 5 niveles de capacidad de predicción entre el predictor verdadero y el resultado. Los resultados de los datos de simulación indican que la media de ROCAUC de las muestras de arranque está cerca del verdadero ROCAUC. Incluso con solo 30 casos y 30 controles, 25 de las 25 variables predictoras enumeradas proporcionan el nivel correcto de capacidad de clasificación mediante el uso de la media de ROCAUC con arranque. El método ROCAUC de arranque propuesto supera al ROCAUC único. El error estándar de la media de los ROCAUC reforzados fue entre un 20 % y un 50 % más pequeño que el error estándar de la única estimación de ROCAUC de la muestra original. Se presenta un ejemplo ilustrativo para aplicar la metodología propuesta para identificar las expresiones génicas que podrían predecir la supervivencia clínica en pacientes con cáncer de mama, utilizando los datos de cáncer de mama del estudio Van’t Veer.

Conclusión: llegamos a la conclusión de que la metodología de ROCAUC con arranque es intuitiva y atractiva para su uso en problemas de selección de características cuando los objetivos del estudio son identificar predictores importantes y proporcionar información sobre la capacidad discriminatoria o predictiva de las variables predictoras individuales. Dichos objetivos son comunes entre los estudios de micromatrices y el descubrimiento de nuevos biomarcadores.

Top