Estás leyendo la publicación: Aprendizaje profundo para dinámicas biomoleculares a gran escala: la investigación de Harvard escala un modelo Allegro preentrenado grande en varios sistemas
La biología computacional, la química y la ingeniería de materiales se basan en la capacidad de anticipar la evolución temporal de la materia a escala atómica. Mientras que la mecánica cuántica gobierna las vibraciones, la migración y la disociación de enlaces de átomos y electrones en un nivel diminuto, los fenómenos que gobiernan los procesos físicos y químicos observables a menudo ocurren en longitudes considerablemente mayores y escalas de tiempo más largas. Se requiere innovación tanto en arquitecturas altamente paralelizables con acceso a procesadores a exaescala como en formas computacionales rápidas y altamente precisas para capturar las interacciones cuánticas para unir estos tamaños. Los enfoques informáticos actuales no pueden probar la complejidad estructural de los sistemas físicos y químicos realistas, y la duración de su evolución observable es demasiado larga para las simulaciones atomísticas.
Ha habido mucha investigación sobre MLIP (potenciales interatómicos de aprendizaje automático) en las últimas dos décadas. Las energías y fuerzas aprendidas de los datos de referencia de alta precisión se utilizan para impulsar los MLIP, que escalan linealmente con la cantidad de átomos. Los primeros intentos utilizaron un proceso gaussiano o una red neuronal simple junto con descriptores elaborados manualmente. Los primeros MLIP tenían poca precisión predictiva porque no podían generalizar a estructuras de datos que no estaban presentes en el entrenamiento, lo que generaba simulaciones frágiles que no podían usarse en ningún otro lugar.
Una nueva investigación del laboratorio de Harvard demuestra que los sistemas biomoleculares con hasta 44 millones de átomos se pueden modelar con precisión SOTA utilizando Allegro. El equipo usó un modelo Allegro grande y previamente entrenado para sistemas con recuentos de átomos que van desde 23 000 para DHFR hasta 91 000 para Factor IX, 400 000 para celulosa, 44 000 000 para la cápside del VIH y más de 100 000 para otros sistemas. Se utiliza un modelo Allegro preentrenado con 8 millones de pesos, con un error forzado de solo 26 meV/A logrado mediante el entrenamiento en 1 millón de estructuras con precisión funcional híbrida en el fantástico conjunto de datos SPICE. Las simulaciones rápidas a exaescala de franjas de sistemas de materiales antes inimaginables son posibles gracias al potencial de aprender conjuntos completos de materiales inorgánicos y moléculas orgánicas en esta escala de datos. Este es un modelo muy grande y poderoso, con 8 millones de pesos.
Para emprender el aprendizaje activo para la construcción automática de conjuntos de entrenamiento, los investigadores demostraron que es posible cuantificar de manera eficiente la incertidumbre de las predicciones de fuerzas y energía del modelo equivalente profundo. Dado que los modelos equivalentes son precisos, el cuello de botella de precisión ahora está en los cálculos de la estructura electrónica cuántica necesarios para entrenar MLIP. Dado que los modelos de mezcla gaussiana se pueden adaptar fácilmente en Allegro, será posible ejecutar simulaciones conscientes de la incertidumbre a gran escala con un solo modelo en lugar de un conjunto.
Allegro es el único enfoque escalable que supera los diseños tradicionales de transferencia de mensajes y basados en transformadores. En varios sistemas grandes, muestran velocidades máximas de más de 100 pasos/segundo y los resultados se amplían a más de 100 millones de átomos. Incluso a la gran escala de 44 millones de átomos de la cápside del VIH, donde las fallas son generalmente considerablemente más obvias, las simulaciones son estables durante nanosegundos desde el primer momento. El equipo casi no tuvo problemas durante la producción.
Para comprender mejor la dinámica de los enormes sistemas biomoleculares y las interacciones a nivel atómico entre proteínas y medicamentos, el equipo espera que su trabajo allane el camino para nuevas vías en bioquímica y descubrimiento de fármacos.