ISSN: 2165- 7866
Ashutosh Gupta
El ácido desoxirribonucleico (ADN) constituye el medio físico en el que se codifican todas las propiedades de los organismos vivos. La comprensión de su secuencia es la principal preocupación en biología molecular. Algunas bases de datos de biología molecular importantes (ERIBL, GenBank, DDJB) se desarrollan en todo el mundo para acumular secuencias de nucleótidos (ADN, ARN) y secuencias de aminoácidos de proteínas. Es bien sabido que su tamaño aumenta hoy en día exponencialmente rápido. Todavía no es tan grande como otras bases de datos científicas, su tamaño es de cientos de GB [1]. Para genomas completos, estos textos pueden ser muy extensos. El genoma humano, por ejemplo, contiene tres mil millones de caracteres en veintitrés pares de cromosomas. Contiene toda la sustancia genética de los seres humanos. Con un número cada vez mayor de secuencias genómicas disponibles, se debe abordar la dificultad de almacenar y utilizar bases de datos. La compresión de la información genética como resultado constituye un trabajo muy importante. Otro factor que también se debe considerar es la predicción de cierto tipo de enfermedad mediante la aplicación de un patrón de búsqueda en el dominio comprimido.