ISSN: 0974-276X
Eman A Alzaid, Achraf El Allali y Hatim Aboalsamh
Antecedentes: encontrar variaciones estructurales del genoma (SV) precisas es importante para comprender la diversidad de fenotipos y las enfermedades complejas. Hay disponible una investigación limitada que utiliza la clasificación para encontrar SV a partir de la secuenciación de próxima generación. Además, los algoritmos existentes dependen principalmente de un análisis de las firmas de alineación de lecturas de extremos emparejados para la predicción de diferentes tipos de variaciones. Aquí, las regiones SV candidatas y sus características se calculan utilizando solo lecturas individuales. La clasificación se utiliza para predecir los tipos de variación de estas regiones.
Resultados: nuestro enfoque utiliza lecturas con alineaciones de varias partes para definir un posible conjunto de regiones SV. Para anotar estas regiones, extraemos características novedosas en función de las lecturas en los puntos de interrupción. Luego construimos tres clasificadores de bosques aleatorios para identificar regiones con eliminaciones, inversiones o duplicaciones en tándem.
Conclusiones: este documento propone un enfoque de clasificación basado en bosques aleatorios, MPRClassify, que aborda el problema de encontrar SV utilizando solo lecturas únicas. Estas lecturas únicas se utilizan para definir regiones candidatas y extraer sus características. Los resultados experimentales muestran que las lecturas individuales son suficientes para encontrar SV sin la necesidad de firmas de lectura de extremos emparejados. Nuestro enfoque propuesto supera los enfoques existentes y sirve como base para futuros estudios que encuentren SV usando lecturas únicas.