Estás leyendo la publicación: Meta AI presenta un modelo basado en aprendizaje automático que predice el plegamiento de proteínas 60 veces más rápido que el estado del arte
Las proteínas son moléculas biológicas complejas que juegan un papel vital en numerosos procesos esenciales y diversos de la vida. Llevan a cabo una variedad de tareas biológicas en los organismos, desde habilitar la visión humana hasta la intrincada maquinaria molecular que transforma la energía solar en energía química en las plantas. Las proteínas que consisten en 20 tipos diferentes de aminoácidos pueden plegarse en estructuras 3D complejas. Debido a su estructura, tienen más espacio para moverse y los científicos pueden comprender mejor cómo funcionan, lo que les permite desarrollar estrategias para imitar, cambiar o inhibir ese comportamiento.
Sin embargo, el uso exclusivo de la fórmula de aminoácidos no permitirá a los investigadores determinar la estructura final de inmediato. Puede hacerse mediante simulaciones o experimentación, pero el procedimiento lleva mucho tiempo. Los avances recientes en el desarrollo de la inteligencia artificial pueden conducir a una nueva comprensión de la estructura de las proteínas en una escala evolutiva. La capacidad de predecir la estructura de la proteína para 200 millones de proteínas catalogadas solo se ha vuelto posible recientemente. La investigación de secuenciación de genes a gran escala ha revelado miles de millones de secuencias de proteínas, y la caracterización de sus estructuras necesitaría un gran avance en la velocidad de plegamiento.
Meta AI anunció recientemente un desarrollo de IA que acelera el plegamiento de proteínas mediante el uso de enormes modelos de lenguaje para construir la primera base de datos completa a escala de cientos de millones de proteínas, avanzando en esta dirección. El conjunto de datos es el más grande jamás visto entre varias otras bases de datos de estructuras de proteínas y es capaz de predecir más de 600 millones de estructuras. En comparación con las metodologías de predicción de estructuras de proteínas de última generación, los modelos de lenguaje pueden acelerar la predicción de una estructura tridimensional a nivel atómico hasta 60 veces.
El equipo hizo públicos el modelo basado en transformadores ESM-2 de 15 000 millones de parámetros, el Atlas Metagenómico ESM (una base de datos de estructuras de proteínas predichas) y una API que permite a los investigadores utilizar el modelo. La capacidad de comprender la estructura de miles de millones de proteínas que catalogan la tecnología de secuenciación de genes estará disponible por primera vez gracias a este avance, según los investigadores. Los científicos pueden aprender más sobre la diversidad del mundo natural y hacer descubrimientos que podrían ayudar a tratar enfermedades, limpiar el medio ambiente y crear energía renovable mediante el uso de formas de proteínas en esta base de datos, que los científicos aún no han visto.
Las proteínas se pueden comparar con el texto de un ensayo. Se pueden expresar como cadenas de letras donde cada carácter representa uno de los 20 aminoácidos, de forma similar a cómo se escribe el lenguaje. Cada secuencia de proteína forma una forma tridimensional, que es significativamente responsable de la actividad biológica de la proteína. Sin embargo, existen distinciones significativas y fundamentales entre ellos. Las secuencias de proteínas tienen patrones estadísticos que revelan detalles sobre la estructura plegada de la proteína.
La IA se utiliza en el modelado a escala evolutiva (ESM) para aprender a interpretar estos patrones. Se entrenó un modelo de lenguaje en las secuencias de millones de proteínas naturales en 2019 mediante el modelado de lenguaje enmascarado, un método de aprendizaje autosupervisado. Esto ayudó a comprender detalles específicos sobre la composición y el propósito de las proteínas. El modelo de lenguaje de proteínas de próxima generación ESM-2 se construyó sobre esta metodología. El equipo notó que la información en las representaciones internas del modelo que permite la predicción de la estructura 3D a nivel atómico emerge a medida que el modelo se amplía de 8M a 15B de parámetros.
Incluso con los recursos de una importante organización de investigación, puede llevar años predecir las secuencias de proteínas utilizando las tecnologías informáticas más modernas. Un avance en la velocidad de predicción es esencial para hacer predicciones a escala metagenómica. Los investigadores descubrieron que la velocidad de la predicción de la estructura podría incrementarse hasta 60 veces utilizando un modelo de lenguaje de secuencias de proteínas. Esto es lo suficientemente rápido como para pronosticar resultados para una base de datos metagenómica completa en cuestión de semanas y es escalable a bases de datos considerablemente más grandes que el Atlas Metagenómico ESM de Meta.
Las técnicas modernas para predecir la estructura requieren extensos conjuntos de datos de proteínas para escanear y encontrar secuencias relacionadas. Para que las técnicas extraigan los patrones asociados con la estructura, se debe utilizar como entrada una colección de secuencias conectadas evolutivamente. Durante su entrenamiento en secuencias de proteínas, el modelo de lenguaje recoge estos patrones evolutivos, lo que permite una predicción de estructura tridimensional de alta resolución directamente desde la secuencia de proteínas.
Los humanos pueden obtener una nueva perspectiva de la biología y comprender la gran extensión de la variación natural con la ayuda de la IA. Incluso las herramientas informáticas más sofisticadas han sido incapaces de comprender completamente el lenguaje de las proteínas, que está más allá de la comprensión humana. La IA tiene el potencial de ayudarnos a comprender este lenguaje. ESMFold demuestra cómo la IA puede proporcionar nuevas herramientas para comprender el mundo natural y revela conexiones entre diferentes campos. Por ejemplo, los grandes modelos de lenguaje, que son la fuerza impulsora detrás de los avances en la traducción automática, la comprensión del lenguaje natural, el reconocimiento de voz y la generación de imágenes, también pueden aprender conocimientos biológicos profundos.
Según Meta, con el trabajo en metagenómica que abarca varios campos, incluida la biología, la química y la inteligencia artificial, es crucial colaborar, compartir sus hallazgos y aprovechar las ideas de otros. Anticipan que ESM-2 y el Atlas metagenómico de ESM apoyarán a los investigadores que trabajan para comprender el pasado evolutivo de las enfermedades y los efectos del cambio climático. Meta AI está trabajando en ampliar los modelos de lenguaje para usarlos para crear nuevas proteínas y ayudar con problemas relacionados con la salud, la enfermedad y el medio ambiente.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Predicción a escala evolutiva de la estructura de proteínas a nivel atómico con un modelo de lenguaje. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, código, herramienta y artículo de referencia.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools