Una nueva investigación de IA propone un codificador basado en estructuras simple pero efectivo para el aprendizaje de la representación de proteínas de acuerdo con sus estructuras 3D

Estás leyendo la publicación: Una nueva investigación de IA propone un codificador basado en estructuras simple pero efectivo para el aprendizaje de la representación de proteínas de acuerdo con sus estructuras 3D

Las proteínas, la energía de la célula, están involucradas en diversas aplicaciones, incluyendo materiales y tratamientos. Están formados por una cadena de aminoácidos que se pliega en una forma determinada. Recientemente se ha encontrado un número significativo de nuevas secuencias de proteínas debido al desarrollo de tecnología de secuenciación de bajo costo. Se requieren métodos de anotación de función de proteína in silico precisos y efectivos para cerrar la brecha actual de función de secuencia, ya que la anotación funcional de una nueva secuencia de proteína sigue siendo costosa y requiere mucho tiempo.

Muchos enfoques basados ​​en datos se basan en el aprendizaje de representaciones de las estructuras de las proteínas porque muchas funciones de las proteínas están controladas por la forma en que se pliegan. Estas representaciones se pueden aplicar a tareas como el diseño de proteínas, la clasificación de estructuras, la evaluación de la calidad del modelo y la predicción de funciones.

El número de estructuras de proteínas publicadas es mucho menor que el número de conjuntos de datos en otros campos de aplicación de aprendizaje automático debido a la dificultad de la identificación experimental de estructuras de proteínas. Por ejemplo, Protein Data Bank tiene 182K estructuras experimentalmente confirmadas, en comparación con 47M de secuencias de proteínas en Pfam y 10M de imágenes anotadas en ImageNet. Varios estudios han utilizado la abundancia de datos de secuencias de proteínas sin marcar para desarrollar una representación adecuada de las proteínas existentes para cerrar esta brecha de representación. Muchos investigadores han utilizado el aprendizaje autosupervisado para preentrenar codificadores de proteínas en millones de secuencias.

🔥 Recomendado:  Investigadores del MIT presentan un nuevo sistema de visión artificial que convierte cualquier objeto brillante en una especie de cámara: lo que permite a un observador ver alrededor de las esquinas...

Los desarrollos recientes en técnicas precisas de predicción de la estructura de proteínas basadas en el aprendizaje profundo han hecho factible predecir de manera efectiva y confiable las estructuras de muchas secuencias de proteínas. Sin embargo, estas técnicas no capturan ni utilizan específicamente la información sobre la estructura de la proteína que se conoce para determinar cómo funcionan las proteínas. Se han propuesto muchos codificadores de proteínas basados ​​en la estructura para utilizar mejor la información estructural. Desafortunadamente, las interacciones entre los bordes, que son cruciales para simular la estructura de la proteína, aún no se han abordado explícitamente en estos modelos. Además, debido a la escasez de estructuras de proteínas establecidas experimentalmente, hasta hace poco se ha trabajado relativamente poco para crear técnicas de preentrenamiento que aprovechen las estructuras 3D no etiquetadas.

Inspirándose en este avance, crearon un codificador de proteínas que se puede aplicar a una variedad de aplicaciones de predicción de propiedades y está preentrenado en las estructuras de proteínas más factibles. Sugieren un codificador sencillo pero eficiente basado en la estructura denominado Red neuronal de gráficos relacionales consciente de GeomEtry, que lleva a cabo el paso de mensajes relacionales en gráficos de residuos de proteínas después de codificar información espacial al incluir varios bordes estructurales o secuenciales. Sugieren una técnica de paso de mensajes de borde disperso para mejorar el codificador de la estructura de la proteína, que es el primer esfuerzo para implementar el paso de mensajes a nivel de borde en GNN para la codificación de la estructura de la proteína. Su idea se inspiró en el diseño del triángulo de atención en Evoformer.

🔥 Recomendado:  OpenAI DALL·E 2 Login: Regístrate, Accede y Usa

También proporcionan un enfoque de preentrenamiento geométrico basado en el conocido marco de aprendizaje contrastivo para aprender el codificador de la estructura de la proteína. Sugieren funciones de aumento innovadoras que mejoran la similitud entre las representaciones adquiridas de las subestructuras de la misma proteína al tiempo que disminuyen las de las de diferentes proteínas para encontrar subestructuras de proteínas vinculadas fisiológicamente que coexisten en las proteínas. Al mismo tiempo, sugieren un conjunto de líneas de base simples basadas en la autopredicción.

Establecieron una base sólida para el preentrenamiento de las representaciones de la estructura de proteínas al comparar sus métodos de preentrenamiento con varias tareas de predicción de propiedades posteriores. Estos problemas previos al entrenamiento incluyen la predicción enmascarada de varias propiedades geométricas o fisicoquímicas, como tipos de residuos, distancias euclidianas y ángulos diédricos. Numerosas pruebas que utilizan una variedad de puntos de referencia, como la predicción de números de Enzyme Commission, la predicción de términos de Gene Ontology, la clasificación de pliegues y la clasificación de reacciones, muestran que GearNet mejorado con el paso de mensajes perimetrales puede superar consistentemente a los codificadores de proteínas existentes en la mayoría de las tareas en un entorno supervisado. ambiente.

Además, utilizando la estrategia de preentrenamiento sugerida, su modelo entrenado en menos de un millón de muestras obtiene resultados equivalentes o incluso mejores que los de los codificadores basados ​​en secuencias más avanzados preentrenados en conjuntos de datos de un millón o mil millones. El código base está disponible públicamente en Github. Está escrito en PyTorch y Torch Drug.