Revista de Proteómica y Bioinformática

Revista de Proteómica y Bioinformática
Acceso abierto

ISSN: 0974-276X

abstracto

Predicción de la solubilidad de proteínas utilizando características de composición de la estructura primaria: una perspectiva de aprendizaje automático

Nouman Rasool, Waqar Hussain y Sajid Mahmood

Es un factor limitante recurrente para obtener concentraciones suficientes de proteínas solubles utilizando metodologías in vitro. La solubilidad es una característica independiente de una proteína que se puede determinar utilizando composiciones de aminoácidos en condiciones experimentales específicas. El presente estudio tiene como objetivo la predicción de la solubilidad de las proteínas mediante la adaptación de enfoques basados en el aprendizaje automático utilizando la información de la estructura primaria. Las características implican características de composición de aminoácidos, así como las propiedades fisicoquímicas de los aminoácidos, es decir, valor canónico, hidrofobicidad, índice de solubilidad y puntuación de solubilidad. Para un conjunto de datos de 6372 secuencias de proteínas (4850 secuencias de proteínas solubles y 1522 secuencias de proteínas insolubles), se calcularon las cuatro características. Utilizando los valores calculados, se desarrollaron cuatro modelos de predicción diferentes basados en el perceptrón multicapa (MLP), el bosque aleatorio (RF), el árbol de decisión (DT) y el clasificador Naïve Bayes (NBC). Para la evaluación del rendimiento, se determinan el MCC, la medida F, la exactitud, la precisión y la tasa de recuperación. Entre los cuatro modelos de predicción, se ha observado que MLP es el modelo más preciso para la predicción de la solubilidad de proteínas con una tasa de precisión del 95,92 %, seguido de RF y NBC. El modelo propuesto, basado en MLP, puede usarse para predecir la solubilidad de proteínas como un preproceso de predicciones experimentales. El método es eficiente en cuanto a recursos y tiempo, y puede ayudar a predecir la solubilidad de las proteínas en lugar de un trabajo experimental laborioso y agitado.

Top