ISSN: 2167-0587
Gregorio B Gloor
Enunciado del problema: los métodos comúnmente utilizados para analizar conjuntos de datos de microbioma o RNA-seq pueden ser engañosos y toda la información disponible de manera consistente no está en usar. Esto da como resultado que muchos análisis estén dominados por las características más abundantes o las más raras: de hecho, a menudo ocurre que los taxones más abundantes dominan los resultados multivariados, y los taxones más raros dominan los resultados univariados en el mismo conjunto de datos. Además, estos conjuntos de datos tienen propiedades extraordinarias que hacen que el uso de la correlación y el análisis de redes sea problemático. Metodología y orientación teórica: los datos recopilados mediante métodos de secuenciación de alto rendimiento (HTS) son lecturas de secuencia asignadas a intervalos genómicos y se analizan comúnmente como datos de recuento normalizados o datos de abundancia relativa. Una razón para estas normalizaciones es intentar compensar el problema de que el instrumento de secuenciación impone un límite superior en el número de lecturas de secuencia. Los datos positivos con un límite arbitrario son datos de composición y están sujetos al problema de la correlación espuria. Por lo tanto, la ordenación, el agrupamiento y el análisis de redes se vuelven poco confiables. Un segundo problema es que los datos son escasos: es decir, contienen muchos valores 0. Un tercer problema es que el error de medición más grande se encuentra en los márgenes de conteo bajos en estos conjuntos de datos. Conclusión &erio; Importancia: utilizamos conjuntos de datos de microbiomas para mostrar cómo la estimación bayesiana combinada con enfoques de datos de composición que examinan las proporciones entre taxones brindan información sólida sobre la estructura y función de las comunidades microbianas. Presentaré conjuntos de datos de ejemplo extraídos de los dominios humano y ecológico y mostraré que la ordenación, la abundancia diferencial y la correlación se pueden interpretar de una manera internamente coherente que proporciona información reproducible.