ISSN: 0974-276X
Korin E. Wheeler, Adam Zemla, Yongqin Jiao, Daniela S. Aliaga Goltsman, Steven W.Singer, Jillian F. Banfield y Michael P. Thelen
Los datos ambientales genómicos y proteómicos están muy poblados con proteínas que no son homólogas a las proteínas caracterizadas experimentalmente. Nos acercamos a esta área problemática investigando una comunidad microbiana natural de un nicho altamente restringido en el que es probable que las proteínas de función desconocida (ORFans) lleven a cabo funciones críticas. Según varios criterios, estas proteínas no eran estadísticamente similares a ninguna secuencia de proteínas en la base de datos SwissProt. Seleccionamos un conjunto objetivo de 545 ORFans y proteínas débilmente anotadas expresadas por el miembro bacteriano dominante de la comunidad, Leptospirillum Group II, y utilizamos un sistema de modelado automatizado (AS2TS) incorporado con otras herramientas computacionales para predecir estructuras. Esto generó 484 modelos, el 89% de la meta establecida. Se predijeron superfamilias basadas en la estructura, categorizaciones funcionales generales y funciones específicas de ontología génica (GO) para 424, 386 y 117 ORFans, respectivamente. Las predicciones y clasificaciones estructurales se integraron en una base de datos seleccionada manualmente, que describía los cálculos in silico y los datos proteómicos disponibles para cada proteína. Este análisis facilitó el desarrollo de hipótesis comprobables experimentalmente para varias proteínas enigmáticas, incluidas predicciones confiables de proteínas de transporte de cobre y proteínas de señalización de diguanilato cíclico. A medida que la secuenciación del ADN de organismos naturales se expande rápidamente, este enfoque de estructura-función computacional se puede aplicar para guiar las pruebas experimentales de la estructura y función de ORFans desafiantes.