ISSN: 0974-276X
Zhanfeng Wang, Chen-An Tsai y Yuan-chin I Chang
El análisis de enriquecimiento de conjuntos de genes (GSEA) utiliza los perfiles de expresión génica de conjuntos de genes funcionalmente relacionados en categorías de ontología génica (GO) o clases biológicas definidas previamente para evaluar la importancia de los conjuntos de genes asociados con los resultados clínicos o fenotipos y son el método más utilizado para el análisis de genes. Sin embargo, se ha prestado poca atención desde una perspectiva de clasificación. En este artículo, identificamos los conjuntos de genes diferenciales, que están fuertemente asociados con la capacidad de distinción de clases fenotípicas, utilizando datos de expresión génica junto con conocimientos biológicos previos. Proponemos dos métodos no paramétricos para identificar conjuntos de genes diferenciales utilizando el área bajo la curva característica operativa del receptor (ROC) (AUC) de las puntuaciones de riesgo lineal de los conjuntos de genes, que se obtienen a través de un método parsimonioso de selección de genes independiente del umbral dentro de los conjuntos de genes. . Las estadísticas basadas en AUC y los valores de AUC obtenidos de la validación cruzada de las puntuaciones de riesgo lineal se calculan y se utilizan como índices para identificar conjuntos de genes diferenciales. Las capacidades de discriminación de los conjuntos de genes se resumen y los conjuntos de genes que poseen capacidad de discriminación se seleccionan a través de un umbral estadístico AUC preestablecido o un umbral AUC de validación cruzada predefinido. Además, distinguimos aún más los impactos de los conjuntos de genes individuales en términos de capacidad de discriminación en función de los valores absolutos de los coeficientes de combinación lineal. Los métodos propuestos permiten a los investigadores identificar conjuntos de genes enriquecidos con alta capacidad de discriminación y descubrir las contribuciones de los genes dentro del conjunto de genes a través de los coeficientes de combinación lineal correspondientes. Se llevan a cabo estudios numéricos que utilizan datos sintetizados y una serie de conjuntos de datos de expresión génica para evaluar el rendimiento de los métodos propuestos, y los resultados se comparan con el método de clasificación de bosques aleatorios y otros enfoques basados en pruebas de hipótesis. Los resultados muestran que nuestros métodos propuestos son confiables y satisfactorios para detectar el enriquecimiento y pueden proporcionar una alternativa perspicaz a las pruebas de conjuntos de genes. El script R y la información complementaria están disponibles en http://idv.sinica.edu.tw/ycchang/software.html.