Revista de Proteómica y Bioinformática

Revista de Proteómica y Bioinformática
Acceso abierto

ISSN: 0974-276X

abstracto

Extracción de subcadenas Unique-m de genomas

Kai Ye, Zhenyu Jia, Yipeng Wang, Paul Flicek y Rolf Apweiler

Las subcadenas únicas en los genomas pueden indicar un alto nivel de especificidad que es crucial y fundamental para muchos estudios genéticos, como PCR, hibridación de microarrays, Southern y Northern transferencia, ARN de interferencia (ARNi) y (re)secuenciación del genoma. Sin embargo, ser una secuencia única en el genoma por sí sola no es adecuada para garantizar una alta especificidad. Por ejemplo, los desajustes de nucleótidos dentro de una cierta tolerancia pueden afectar la especificidad incluso si una subcadena interesada ocurre solo una vez en el genoma. En este estudio, proponemos el concepto de subcadenas de genomas de m únicos para controlar la especificidad en ensayos de genoma completo. Una subcadena única-m se define si solo tiene una única coincidencia perfecta en una hebra del genoma completo, mientras que todas las demás coincidencias aproximadas deben tener más de m discrepancias. Desarrollamos un enfoque de crecimiento de patrones para extraer sistemáticamente tales subcadenas de m únicas de un genoma dado. Nuestro algoritmo no necesita un paso de preprocesamiento para extraer información secuencial que requieren la mayoría de los otros métodos rivales. La búsqueda de subcadenas de m únicas de los genomas se realiza como una tarea única de extracción de datos regular, de modo que las similitudes entre las consultas se utilizan para lograr una gran aceleración. El tiempo de ejecución de nuestro algoritmo es lineal con respecto a los tamaños de los genomas de entrada y la longitud de las subcadenas de m únicas. Además, el algoritmo de minería unique-m se ha paralelizado para facilitar el cálculo de todo el genoma en un clúster o una sola máquina de varias CPU con memoria compartida.

Top