ISSN: 2090-4924
Mohamed H Ibrahim y Ahmed M Khedr
La clasificación de secuencias de genes es un problema bien conocido que afecta a varias subdisciplinas de la bioinformática, incluida la genómica funcional y el análisis de datos de expresión génica. En la tarea de clasificación de genes, las familias de genes se formulan con frecuencia utilizando grandes Modelos de Markov ocultos generalizados (GHMM) que representan un cuello de botella para cualquier método de decodificación y debilitan su eficiencia. Por lo tanto, una decodificación eficiente de tales GHMM sigue siendo un desafío clave. En este documento, presentamos una nueva estrategia basada en poda para mejorar la decodificación de GHMM utilizando técnicas de poda. Nos enfocamos en el algoritmo de decodificación viterbi pero la estrategia es aplicable a la decodificación GHMM en general. A diferencia de los métodos de decodificación estándar, primero se realiza un cambio de paradigma desde la detección hacia el reconocimiento para integrar todos los modelos considerados en un espacio de estado combinado. Luego, el proceso de decodificación se limita a los estados activados dentro de un haz alrededor de la solución óptima para reducir significativamente el esfuerzo computacional y, por lo tanto, acelerar en gran medida la decodificación del modelo. Nuestro experimento con genes eucarióticos demuestra la eficacia de nuestro enfoque para acelerar la tarea de clasificación de genes.