Estás leyendo la publicación: Conozca ‘ESMFold’ de Meta AI, un modelo basado en inteligencia artificial que predice la estructura de proteínas 6 veces más rápido que AlphaFold2
Investigaciones recientes han demostrado que los grandes modelos de lenguaje pueden evolucionar con la escala, yendo más allá de la simple coincidencia de patrones para hacer un razonamiento de alto nivel y producir imágenes y textos realistas. Ha habido algunas investigaciones sobre modelos de lenguaje entrenados en secuencias de proteínas, pero cuando se amplían, se sabe poco sobre lo que aprenden sobre biología. Los investigadores de Meta AI han desarrollado uno de los modelos de lenguaje de proteínas más significativos hasta la fecha, ESMFold, que puede predecir la estructura de la proteína a partir de una secuencia de genes. Con un tiempo de inferencia más rápido en un orden de magnitud, ESMFold, basado en un modelo de transformador de parámetros 15B, ofrece una precisión comparable a otros modelos de última generación. El artículo que describe el modelo y varias pruebas realizadas como parte de este estudio también se han publicado en bioRxiv. ESMFold utiliza un modelo de lenguaje basado en Transformer llamado ESM-2 en contraste con otros modelos como AlphaFold2, que se basan en bases de datos externas de alineaciones de secuencias. Este modelo está actualizando el modelo Evolutionary Scale Modeling (ESM), que aprende las relaciones entre pares de aminoácidos en una secuencia de proteínas. Esto hace que ESMFold sea 6 veces más rápido que AlphaFold2 para predecir la estructura de la proteína. El equipo de Meta utilizó ESMFold para estimar rápidamente la estructura de un millón de secuencias de proteínas.
La codificación genética del ADN sirve como una “receta” para ensamblar secuencias de aminoácidos en moléculas de proteína. Las proteínas producidas a partir de estas secuencias lineales se pliegan en intrincadas estructuras 3D esenciales para su función biológica. Las técnicas experimentales tradicionales pueden tardar años en completarse y requieren equipos costosos y especializados para determinar la estructura de la proteína. AlphaFold2 de DeepMind resolvió finalmente el problema de 50 años de predecir de manera rápida y confiable la estructura de la proteína a partir de la secuencia de aminoácidos a fines de 2020. AlphaFold2 recibe datos de alineación de secuencias múltiples (MSA) además de la secuencia de aminoácidos sin procesar; esta base de datos externa ralentiza el rendimiento. MSA vincula varias secuencias basándose en la noción de que comparten un ancestro evolutivo.
Meta y otros grupos han estudiado cómo se pueden usar los modelos de lenguaje en genómica durante muchos años. InfoQ presentó el modelo de lenguaje BigBird de Google en 2020, ya que logró un mejor rendimiento en dos tareas de clasificación genómica que los algoritmos de referencia. También destacaron el modelo de lenguaje ESM de código abierto inicial de Meta para calcular una representación de incrustación de secuencia de proteína en el mismo año. InfoQ también había informado AlphaFold2 de DeepMind, y ahora también han anunciado el lanzamiento de las predicciones de estructuras de AlphaFold2 “para casi todas las proteínas catalogadas conocidas por la ciencia”. Los investigadores también realizaron una sesión de preguntas y respuestas en Twitter donde el público recibió respuestas a preguntas como la longitud máxima de la secuencia de entrada del modelo. Aunque Meta aún no ha hecho que ESMFold sea de código abierto, espera hacerlo pronto para ayudar en el avance de la investigación que la comunidad puede hacer.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Los modelos de lenguaje de secuencias de proteínas a la escala de la evolución permiten una predicción precisa de la estructura‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Echa un vistazo a la preimpresión/en revisión papel y artículo de referencia.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools