ISSN: 0974-276X
Carsten Henneges, Georg Hinselmann, Stephan Jung, Johannes Madlung, Wolfgang Schütz, Alfred Nordheim y Andreas Zell
Las instalaciones deProteómica acumulan grandes cantidades de datos de proteómica que se archivan con fines de documentación. Dado que los motores de búsqueda de proteómica, p. Mascot o Sequest se utilizan para la secuenciación de péptidos que dan como resultado aciertos de péptidos que se clasifican según una puntuación. Aplicamos algoritmos de clasificación para combinar los resultados de búsqueda archivados en modelos predictivos. De esta forma, pueden identificarse secuencias peptídicas que con frecuencia alcanzan puntuaciones altas. Usando nuestro enfoque, se pueden predecir directamente a partir de su estructura molecular y luego usarse para respaldar la identificación de proteínas o realizar experimentos que requieren una identificación confiable de péptidos. Preparamos todas las secuencias de péptidos y las puntuaciones de Mascot de un período de cuatro años de experimentos de proteómica en Homo sapiens del Proteoma Center Tuebingen para entrenamiento. Para codificar los péptidos, se usaron MacroModel y DragonX para el cálculo del descriptor molecular. Todas las funciones se clasificaron mediante la selección de funciones específicas de la clasificación utilizando el algoritmo de búsqueda Greedy para mejorar significativamente el rendimiento de RankNet y FRank. La evaluación del modelo en los datos de prueba de retención dio como resultado una precisión promedio media de hasta 0,59 y una ganancia acumulativa descontada normalizada de hasta 0,81. Por lo tanto, demostramos que los algoritmos de clasificación se pueden utilizar para el análisis de datos proteómicos a largo plazo para identificar los péptidos con mayor puntuación con frecuencia.