ISSN: 0974-276X
Tamanna Sultana, Rick Jordan, James Lyons-Weiler
La identificación correcta de péptidos y proteínas en muestras biológicas complejas a partir de espectros de masas proteómicos es un problema desafiante en bioinformática. La sensibilidad y la especificidad de los algoritmos de identificación dependen de los métodos de puntuación subyacentes, siendo algunos más sensibles y otros más específicos. Para la identificación automatizada de péptidos de alto rendimiento, es deseable el control sobre el rendimiento del algoritmo en términos de compensación entre sensibilidad y especificidad. Se ha demostrado que las combinaciones de algoritmos, denominadas "métodos de consenso", proporcionan resultados más precisos que los algoritmos individuales. Sin embargo, debido a la proliferación de algoritmos y sus variadas configuraciones internas, falta una comprensión sistemática del rendimiento relativo de los métodos individuales y de consenso. Realizamos un análisis en profundidad de varios enfoques para la puntuación de consenso utilizando mezclas de proteínas conocidas y evaluamos el rendimiento de 2310 configuraciones generadas a partir del consenso de tres algoritmos de búsqueda diferentes: Mascot, Sequest y X! Tandem. Nuestros hallazgos indican que la unión de Mascot, Seq uest y X!Tandem funcionó bien (considerando la precisión general), y los métodos que usan una probabilidad de proteína del 80-99,9 % y/o un mínimo de 2 péptidos y/o un mínimo del 0-50 % La probabilidad de péptidos para la identificación de proteínas tuvo un mejor desempeño (en promedio) entre todos los métodos de consenso probados en términos de precisión general. Los resultados también sugieren estrategias de selección de métodos para proporcionar un control directo sobre la sensibilidad y la especificidad.