ISSN: 2161-0398
David Horn*, Uri Weingart
La metodología de los péptidos específicos (SP) se ha introducido en el contexto de las enzimas. Se basa en una herramienta de Machine Learning (ML) no supervisada para la extracción de motivos, seguida de una anotación supervisada de motivos. En el caso de las enzimas, el clasificador es el número de clasificación de enzimas (EC). Aquí volvemos a estudiar este problema y demostramos que alcanzamos una precisión de 0,965 y una recuperación de 0,891 en las secuencias de proteínas actualmente disponibles. Además, aplicar nuestra metodología para consultar proteínas es mucho más rápido que los métodos de aprendizaje profundo utilizados para el mismo propósito.
También aplicamos este método a otros dos grupos de proteínas, los receptores de acoplamiento de proteína G (GPCR) y las proteínas con dedos de zinc, encontramos sus SP correspondientes y proporcionamos el código para buscar cualquier secuencia de proteína para su clasificación en dicha familia. Se están discutiendo algunas proteínas que tienen anotaciones que pertenecen a dos de los tres sistemas. Nuestra metodología se puede aplicar a cualquier grupo de proteínas para encontrar sus SP correspondientes y proporcionar el código para buscar cualquier secuencia de proteína para su clasificación en dicha familia.