ISSN: 0974-276X
Loai Abdallah, Waleed Khalifa, Louise C Showe y Malik Yousef
Antecedentes: Los avances tecnológicos han facilitado la generación de datos de expresión génica a partir de un gran número de muestras y la desarrollo de “Big Data” enfoques para analizar la expresión génica en sistemas básicos y biomédicos. Dicho esto, los datos aún incluyen cantidades relativamente pequeñas de muestras y decenas de miles de variables/expresión génica. Se ha desarrollado una variedad de enfoques diferentes para buscar estos espacios genéticos con el fin de seleccionar las variables más informativas que puedan distinguir con precisión una clase de sujetos/muestras de otra. Sin embargo, todavía existe la necesidad de nuevos enfoques que puedan distinguir con precisión clases biológicamente diferentes de sujetos con perfiles de expresión génica similares. Describimos un enfoque nuevo y prometedor para seleccionar los genes expresados diferencialmente más informativos que aborda este problema. Describimos un método para identificar grupos significativos de genes expresados diferencialmente mediante un proceso de Eliminación de grupos recursivos (RCE) que se basa en un enfoque de agrupación de conjuntos. Nos referimos a este enfoque como SVM-RCE-EC (agrupación de conjuntos). Mostramos que SVM-RCE-EC mejora la selección de genes, la precisión de la clasificación en comparación con otros métodos, incluido el enfoque tradicional de SVM-RCE, y que esto es particularmente evidente cuando se aplica a conjuntos de datos difíciles que otros enfoques no resuelven bien.
Métodos: Para implementar SVM-RCE-EC, primero aplicamos un método de agrupamiento de conjuntos para identificar grupos de genes robustos. Luego aplicamos máquinas de vectores de soporte (SVM), con validación cruzada para calificar (clasificar) esos grupos de genes en función de sus contribuciones a la precisión de la clasificación. Los grupos de genes que son menos significativos se eliminan progresivamente mediante el procedimiento de RCE, reteniéndose los grupos más significativos hasta que se identifican los genes expresados diferencialmente más robustos y significativamente entre las dos clases. Comparamos el rendimiento de clasificación de SVM-RCE-EC con una variedad de algoritmos de clasificación publicados.
Resultados y conclusión: La utilización de grupos de genes seleccionados mediante el método de conjunto mejora el rendimiento de la clasificación en comparación con otros métodos e identifica conjuntos de genes significativos que parecen ser biológicamente más significativos para el sistema que se analiza. Mostramos que SVM-RCE-EC supera a varios otros métodos en datos que representan clases de muestra muy similares que son difíciles de distinguir y es comparable a otros métodos cuando se aplica a datos donde las clases se separan más fácilmente. Es probable que el rendimiento mejorado de SVM-RCE-EC en conjuntos de datos difíciles se deba al hecho de que los clústeres significativos, determinados por el enfoque de conjunto, capturan la estructura nativa de los datos, mientras que SVM-RCE deja esa determinación al usuario. Esta hipótesis está respaldada por las observaciones de que el rendimiento de los clústeres generados por SVM-RCE-EC es más sólido.
Disponibilidad: La versión Matlab de SVM-RCE-EC está disponible previa solicitud al primer autor y en GitHub (https://github.com/malikyousef/svm-rce-ec).