ISSN: 0974-276X
Sima Naghizadeh, Vahid Rezaeitabar, Hamid Pezeshk y David Matthews
Una de las herramientas importantes para analizar y modelar datos biológicos es el modelo de Markov oculto (HMM), que se utiliza para la predicción de genes, la estructura secundaria de proteínas y otras tareas esenciales. Un HMM es un proceso estocástico en el que se llama una cadena de Markov oculta; la cadena de estados, emite una secuencia de observaciones. Usando esta secuencia, se pueden abordar varias preguntas sobre el esquema de generación de emisiones subyacente. Aplicar un HMM a cualquier situación particular es un intento de inferir qué estado de la cadena emite una observación. Esto generalmente se llama decodificación posterior. En general, se supone que las emisiones son condicionalmente independientes entre sí. En este trabajo consideramos algunas dependencias entre los estados y las emisiones. El objetivo de nuestra investigación es estudiar una determinada relación entre las emisiones, centrándonos en la propiedad de Markov. Suponemos que la probabilidad de observar una emisión depende no solo del estado actual sino también del estado anterior y de una de las emisiones anteriores. También usamos información ambiental adicional y clasificamos los aminoácidos en tres grupos, usando la Accesibilidad Relativa de Solventes (RSA). También investigamos cómo esta modificación podría cambiar los algoritmos actuales para los HMM ordinarios e introducimos algoritmos Viterbi y Forward-Backward modificados para el nuevo modelo. Aplicamos nuestro modelo propuesto a un conjunto de datos reales sobre la predicción de la estructura secundaria de la proteína y demostramos una precisión mejorada en comparación con el HMM ordinario. En particular, la precisión general de nuestro HMM modificado, que utiliza la información de RSA, es del 63,95 %. Esto es un 5,9 % más alto que la precisión de la predicción realizada mediante el uso de un HMM normal en el mismo conjunto de datos, y un 4 % más alto que la precisión de la predicción correspondiente de un HMM modificado que simplemente tiene en cuenta las dependencias entre las emisiones.