ISSN: 2153-0637
Xiong Momiao
Las tecnologías de secuenciación de próxima generación generarán datos de variaciones genómicas y epigenómicas masivas sin precedentes (miles o incluso diez miles de individuos) y altamente dimensionales (hasta cientos de millones). Una pregunta fundamental es cómo extraer de manera eficiente información genómica y epigenómica de importancia clínica. El paradigma tradicional para identificar variantes de validez clínica es probar la asociación de las variantes. Sin embargo, las variantes genéticas significativamente asociadas pueden o no ser de utilidad para el diagnóstico y pronóstico de enfermedades. Una alternativa a los estudios de asociación para encontrar variantes genéticas de utilidad predictiva es buscar sistemáticamente variantes que contengan suficiente información para la predicción del fenotipo. Para lograr esto, introducimos conceptos de reducción de dimensión suficiente que proyectan los datos originales de alta dimensión a un espacio de muy baja dimensión mientras se preserva toda la información sobre los fenotipos de respuesta. Luego formulamos un problema de descubrimiento de variantes genéticas y epigenéticas clínicamente significativas en un problema SDR disperso y desarrollamos algoritmos que pueden seleccionar variantes genéticas significativas de hasta diez millones de predictores con la ayuda de dividir SDR para el genoma completo en una serie de problemas sub-SDR. definido para las regiones genómicas. El SDR escaso se formula a su vez como un problema de puntuación óptima escaso. Para acelerar el cálculo, aplicamos el método de dirección alterna para multiplicadores para resolver el problema de puntaje óptimo escaso que se puede implementar fácilmente en paralelo. Para ilustrar su aplicación, el método propuesto se aplica al conjunto de datos de cáncer general de TCGA.