Revista internacional de minería de datos biomédicos

Revista internacional de minería de datos biomédicos
Acceso abierto

ISSN: 2090-4924

abstracto

De novo RNA seq assembly and annotation of important legume-Vicia sativa L. (SRR403901)

Hetalkumar J Panchal

Abstracto

Vicia sativa L., que también se llama arveja normal; es una leguminosa fijadora de nitrógeno de la familia Fabaceae. Últimamente, la innovación de secuenciación de vanguardia, llamada RNA-seq, ha brindado una manera increíble de lidiar con la descomposición del transcriptoma. Esta investigación se centra en el ARN-seq de Vicia sativa L. de SRR403901 de la base de datos NCBI para todo el Transcriptome de nuevoexamen. Se crearon un total de 12,4 millones de lecturas individuales con N50 de 588 pb. El grupo de sucesión contenía 22748 contigs absolutos, lo que es más investigación con proteínas conocidas, se distinguió un total de 7652 cualidades. Entre estos, 500 unigenes solitarios se explicaron con 18761 clases prácticas de cosmología de calidad (GO) y grupos planificados para 122 vías a través de la comparación con la base de datos de vías de la Enciclopedia de genes y genomas de Kioto (KEGG). Esta información será útil para la divulgación de calidad y las investigaciones útiles, y la gran cantidad de registros revelados en el examen actual se completará como un importante activo hereditario de Vicia sativa L.

Introducción

Las técnicas de secuenciación de vanguardia para la secuenciación de ARN de alto rendimiento (transcriptoma) se utilizan cada vez más como la innovación de decisión para identificar y evaluar registros conocidos y novedosos en plantas. Esta técnica de investigación del transcriptoma es rápida y sencilla debido a que no requiere la clonación de los ADNc. La secuenciación directa de estos ADNc puede crear lecturas cortas con una profundidad notable. Después de la secuenciación, las lecturas posteriores se pueden recopilar en un perfil de registro a escala del genoma. Es un enfoque cada vez más efectivo y de mayor alcance para medir la síntesis del transcriptoma , obtener ejemplos de articulación de ARN y encontrar nuevos exones y cualidades; información de secuenciación deEl transcriptoma se recopiló utilizando diferentes dispositivos de recopilación, la descripción utilitaria de las cualidades y la investigación de vías transmitida con otros dispositivos de bioinformática . La gran cantidad de registros anunciados en el examen actual se completará como un importante activo hereditario para Vicia sativa L.

La secuenciación de lectura corta de alto rendimiento es uno de los avances de secuenciación más recientes que se ha descargado en la red de genómica. Por ejemplo, en condiciones normales, un aumento repentino y solitario en la demanda de Illumina Genome Analyzer puede dar lugar a más de 30 a 40 millones de agrupaciones de un solo extremo (~35 nt). Sea como fuere, el rendimiento posterior puede fácilmente superar los marcos de investigación genómica destinados a la duración de la secuenciación convencional de Sanger, o incluso los volúmenes más pequeños de información que se generan debido a la tecnología de secuenciación 454 (Roche). Regularmente, la utilización subyacente de la secuenciación de lectura corta se limitó a coordinar la información de los genomas que eran casi indistinguibles del genoma de referencia. transcriptomaEl examen en un nivel de articulación de calidad mundial es una utilización perfecta de la secuenciación de lectura corta. Habitualmente, dicho examen incluía el desarrollo de bibliotecas de ADN integral (ADNc), la secuenciación Sanger de tecnologías ecológicamente racionales y la investigación de micromatrices. La secuenciación de vanguardia se ha convertido en una técnica posible para expandir la profundidad y la inclusión de la secuenciación al tiempo que disminuye el tiempo y el costo en comparación con la estrategia habitual de Sanger.

Métodos

1. Recuperación de secuencias:

Esta investigación se centra en la explicación de la unión y la sucesión de Vicia sativa L. de SRR403901 de la base de datos NCBI. Información cruda descargada de NCBI SRA (que es de la plataforma Illumina HiSeq 2000 y el ejemplo tiene un acabado único con 12,4 millones de puntos y 42,4 % de contenido de GC. La agrupación cruda se cambió al diseño de registros fastq para una documentación adicional con el uso de SRA TOOL KIT de NCBI.

2. Kit de herramientas de control de calidad NGS

NGS QC Toolkit, es una aplicación para el control de calidad y tamizado de información de primer nivel. La caja de herramientas incluye dispositivos fáciles de entender para el control de calidad de los datos de secuenciación producidos con las etapas Roche 454 e Illumina, e instrumentos adicionales para ayudar al control de calidad (convertidor de grupo de sucesión y dispositivos de corte) y el examen (dispositivos de medición). Se ha dado una variedad de opciones para fomentar el control de calidad en los límites definidos por el cliente. Se requiere que la caja de herramientas sea valiosa para el control de calidad de la información NGS para fomentar un mejor análisis posterior.

3. Montaje de secuencia de novo por CLC GENOMICS WORKBENCH 7

Un paquete de investigación de gran alcance y fácil de usar para examinar, contrastar y representar información de secuenciación de vanguardia. Este paquete se usó para una sucesión completa de agrupación con límites naturales de un dispositivo de conexión completa.

4. EXPLOSIÓN

El registro recopilado también se consideró para explicar en qué paso inicial se identificaron las agrupaciones de proteínas descifradas de los contigs. BLASTX en NCBI funcionó sin cambiar apenas los límites, como la base de datos de proteínas sin exceso (nr) elegida como base de datos; Eudicots eligió en la alternativa de criatura y en los límites del algoritmo Max target Sequences establecido en 10 y Expect limit establecido en 6.

5. Explosión2GO

Blast2GO es un dispositivo TODO en UNO para la explicación útil de agrupaciones (novedosas) y la investigación de información de comentarios. A la luz de las consecuencias del comentario de la base de datos de proteínas, se utilizó Blast2GO para adquirir la caracterización práctica de los unigenes dependientes de los términos GO. Los contigs de registro se organizaron bajo tres términos GO, por ejemplo, capacidad atómica, proceso celular y procedimiento natural. El instrumento WEGO se utilizó para reproducir la caracterización utilitaria GO para la totalidad de los unigenes y comprender la dispersión de los elementos de calidad de esta especie . a nivel de gran escala. La base de datos KEGG se utilizó para explicar la vía de estos unigenes.

6. Minería RSS

Utilizamos MIcroSAtellite (MISA) para la minería de microsatélites que brinda diferentes rendimientos reales de registros con datos útiles.

7. Factor de transcripción vegetal

PlantTFcat: una herramienta de análisis y categorización de reguladores transcripcionales y factores de transcripción de plantas en línea que se utiliza para distinguir el factor de registro de plantas en agrupaciones.

Resultados y discusiones

1. Kit de herramientas de control de calidad NGS

El arreglo se separó con este aparato mediante la evacuación de conectores y otros materiales contaminados, luego la naturaleza del agrupamiento también se verificó con este dispositivo, por último, se consideró un gran documento de sucesión de canales para un nuevo agrupamiento.

2. Montaje de secuencia de novo

CLC GENOMICS WORKBENCH 7 considerado para la agrupación de nuevo con límites naturales como Costo de desajuste = 2, Costo de inserción = 3, Costo de eliminación = 3, Fracción de longitud = 0.5, Fracción de similitud = 0.8, Tamaño de palabra = 21 finalmente 22748 contigs producidos con estimación normal de 503 por este producto y aparecen diferentes sutilezas.

3. Anotación funcional con BLASTX y blast2GO

3.1 EXPLOSIÓN

Se realizó BLASTX para ajustar los contigs contra la base de datos de sucesiones sin exceso utilizando un margen de estimación E de 10-6. De los 22748 contigs de registro, 13482 tenían aciertos BLAST en proteínas conocidas con una gran cercanía y 1114 no tenían aciertos BLAST. De todos los registros de contigs, y muestra que el transporte de especies donde 9819 agrupaciones demostraron una semejanza notable con Medicago truncatula y la menor cercanía se encontró con Prunus mume.

3.2 Clasificación del código de enzimas (EC)

Químico organizado con un total de 2336 agrupaciones que también se caracterizan en seis clases que son de oxidorreductasas, transferasas, hidrolasas, liasas, isomerasas y ligasas.

3.3 Clasificación de ontología génica (GO)

Para clasificar prácticamente los contigs de registro de Vicia sativa L., se asignaron términos de Gene Ontology (GO) a cada contigs de registro acumulado. De 22748 contigs de registro, 18761 unigenes se ensamblaron en clasificaciones utilitarias GO, que se transmiten bajo las tres clasificaciones principales de función molecular, proceso biológico y componentes celulares, que es el rendimiento del aparato WEGO; Muestra que, dentro de la clasificación de Función Molecular, las cualidades que codifican proteínas restrictivas y proteínas identificadas con acción reactiva fueron las más avanzadas. Las proteínas identificadas con procedimientos metabólicos y formas celulares se mejoraron en la clase de Procesos Biológicos. Con respecto a la clasificación de Componentes Celulares, la célula y parte de la célula fueron las clasificaciones más abordadas excepcionalmente.

Se explicó una suma de 500 unigenes con 122 vías en la base de datos KEGG. Numerosos registros incorporan diferentes vías como vías metabólicas, vías de colaboración planta-microbio, vía de digestión de grasas no saturadas y biosíntesis de grasas no saturadas.

4.  Minería RSS

Los marcadores de microsatélites (marcadores SSR) son los mejores marcadores subatómicos absolutos en el desarrollo de una guía hereditaria de Vicia sativa L. y en la investigación de diversas variedades. Para una prueba reconocible de SSR, todos los registros se buscaron con MISA de contenido perl. Distinguimos un agregado de 1150 SSR en 1055 registros. Los SSR de mononucleótidos representan la división más grande de SSR distinguidos, seguidos por los SSR de trinucleótidos y dinucleótidos. Aunque solo se distinguió una pequeña división de SSR de tetra, penta y hexanucleótido en los registros, el número es muy notable. 

5. Factor de transcripción vegetal

Además, los registros de codificación de factor de registro se reconocieron mediante la correlación de sucesión con familias de calidad de factor de registro realizadas. El resultado muestra que las calidades del factor de registro circularon con, en cualquier caso, se distinguieron 82 familias. La circulación general de registros de codificación de factores de registro entre las diferentes familias de proteínas conocidas es fundamentalmente la misma que la de diferentes vegetales como se anticipó anteriormente.

Conclusiones

Esta investigación se centra en la especie Vicia sativa L. (SRR403901) de la base de datos NCBI para una vez más el examen transcriptómico por RNA-seq utilizando la secuenciación Illumina de última generación. La secuenciación del transcriptoma permite diferentes lecturas prácticas de genómica para un ser vivo. Si bien se han producido algunos avances de alto rendimiento para la secuenciación rápida y la representación de transcriptomas, la información de agrupación comunicada aún no está disponible para algunas formas de vida, incluidas muchas plantas de producción. En esta investigación, realizamos nuevamente un comentario práctico del transcriptoma de Vicia sativa L. sin considerar ninguna especie de referencia.con una enorme disposición sin exceso de 34678 registros. Los exámenes detallados del índice de información han brindado algunos aspectos destacados significativos del transcriptoma de Vicia sativa L., por ejemplo, contenido de GC, genes conservados en leguminosas y otras especies de plantas, asignación de categorías funcionales mediante términos GO e identificación de SSR mediante la herramienta MISA . Cabe señalar que este estudio de Vicia sativa L. será útil para futuros estudios de genómica funcional, ya que incluye información útil de cada transcripción.

Reconocimiento

Agradecemos sinceramente al Prof. (Dr.) PV Virparia, Director, GDCST, Universidad Sardar Patel, Vallabh Vidyanagar, por brindarnos las instalaciones para el trabajo de investigación.

Top