ISSN: 0974-276X
Jing Ding, Daniel Berleant, Jun Xu, Kenton Juhlin, Eve Wurtele y Andy Fulmer
El rápido desarrollo de micromatrices y otras tecnologías genómicas ahora permite a los biólogos monitorear la expresión de cientos, incluso miles de genes en un solo experimento. La interpretación del significado biológico de los patrones de expresión todavía depende en gran medida del conocimiento del dominio del biólogo, así como de la información recopilada de la literatura y varias bases de datos públicas. Sin embargo, los expertos individuales’ el conocimiento del dominio es insuficiente para grandes conjuntos de datos, y recopilar y analizar esta información manualmente de la literatura y/o bases de datos públicas es tedioso y requiere mucho tiempo. Por lo tanto, las herramientas de análisis funcional asistidas por computadora son muy deseables.
Describimos la arquitectura de GeneNarrator, un sistema de minería de texto para el análisis funcional de datos de micromatrices. El propósito principal de este sistema es probar la viabilidad de una arquitectura de sistema más general basada en una estrategia de agrupación en dos etapas que se explica en detalle. Dada una lista de genes, GeneNarrator recopila resúmenes sobre ellos de PubMed, luego agrupa los resúmenes en temas funcionales en una primera etapa de agrupación. En la segunda etapa de agrupación, los genes se agrupan en grupos en función de las similitudes en sus distribuciones de aparición entre temas. Esta novedosa arquitectura de dos etapas, la principal contribución de este proyecto, tiene beneficios que no son fáciles de proporcionar mediante el agrupamiento en una etapa.