Este modelo de lenguaje de proteínas basado en inteligencia artificial desbloquea el modelado de secuencias de propósito general

Estás leyendo la publicación: Este modelo de lenguaje de proteínas basado en inteligencia artificial desbloquea el modelado de secuencias de propósito general

La forma en que las personas estudian el lenguaje de la vida se ha modificado fundamentalmente al comparar la sintaxis-semántica de los lenguajes naturales y la función secuencial de las proteínas. Aunque esta comparación tiene un valor inherente cuando se ve como un hito histórico que ayudó a mejorar la aplicación de la PNL al dominio de las proteínas (como los modelos de lenguaje), los resultados del área de la PNL no se traducen por completo al lenguaje de las proteínas. Además de ampliar los tamaños de los modelos de NLP, ampliar los modelos de lenguaje de proteínas puede tener un impacto mucho mayor que ampliar los tamaños de los modelos de NLP.

La observación de modelos de lenguaje con una gran cantidad de parámetros entrenados en una gran cantidad de pasos que aún experimentan gradientes de aprendizaje notables y, por lo tanto, se perciben como inadecuados tiende a fomentar la proporcionalidad entre el tamaño del modelo y la riqueza de sus representaciones aprendidas más bien -falsamente- . Como resultado, la elección de representaciones de proteínas más precisas o relevantes ha cambiado gradualmente a la elección de modelos más grandes, que requieren más potencia informática y, por lo tanto, son menos accesibles. En particular, los tamaños de PLM aumentaron recientemente de 106 a 109 parámetros. Basan su punto de referencia de rendimiento de tamaño utilizando ProtT5-XL-U50 de ProtTrans, un transformador de codificador-decodificador entrenado previamente en la base de datos UniRef50, cuyos parámetros son 3B para entrenamiento y 1.5B para inferencia, arrojando luz históricamente sobre el estado del modelo de lenguaje de proteínas. -el-arte (SOTA).

🔥 Recomendado:  Cómo verificar si las imágenes del producto existen o no en Magento 2

Para desarrollar principios de escalado para el modelado de secuencias de proteínas, se utilizó la familia de modelos de lenguaje RITA, que es un primer paso en esa dirección, para mostrar cómo cambia el rendimiento de un modelo con respecto a su tamaño. RITA presenta cuatro modelos alternativos con aumentos de tamaño proporcionales al rendimiento de 85M a 300M, a 680M, a 1.2B parámetros. Más tarde, ProGen2 confirmó un patrón similar, una colección de modelos de lenguaje de proteínas entrenados en varios conjuntos de datos de secuenciación que incluyen parámetros 6.4B. Finalmente, y en el momento en que se publicó este estudio, ESM-2, una encuesta de modelos de lenguaje de proteínas de uso general que muestra de manera similar un aumento de rendimiento proporcional en tamaño de 650M a 3B a 15B parámetros, es la adición más reciente que alienta el modelo -escalada.

La simple relación entre PLM más grandes y aparentemente mejores ignora varios factores, incluidos los costos informáticos y el diseño y la implementación de modelos independientes de tareas. Esto aumenta el obstáculo de entrada para la investigación innovadora y limita su capacidad de escalar. Aunque indiscutiblemente el tamaño del modelo influye en la consecución de los objetivos anteriores, no es el único. El ajuste de escala del conjunto de datos previo al entrenamiento en la misma dirección es condicional, es decir, los conjuntos de datos más grandes no siempre son preferibles a los conjuntos de datos más pequeños de mayor calidad. Argumentan que ampliar los modelos de lenguaje es condicional y continúa con el mismo enfoque (es decir, los modelos más grandes no son necesariamente mejores que los modelos más pequeños de medios de optimización guiados por el conocimiento de proteínas).

🔥 Recomendado:  Este emprendedor encontró un servicio que nadie ofrecía. Luego lo convirtió en un negocio exitoso

El objetivo principal de este estudio es incorporar la optimización guiada por el conocimiento en un marco empírico iterativo que fomente el acceso a la innovación en investigación a través de recursos prácticos. Debido a que su modelo “desbloquea” el lenguaje de la vida al aprender mejores representaciones de sus “letras”, los aminoácidos, llamaron a su proyecto “Ankh” (una referencia al signo del Antiguo Egipto para la clave de la vida). Esto se desarrolla aún más en dos piezas de evidencia para evaluar la generalidad y optimización de Ankh.

Un estudio de generación para la ingeniería de proteínas en aplicaciones High-N (basadas en familias) y One-N (basadas en secuencias únicas), donde N es el número de secuencias de entrada, es el primer paso para superar el rendimiento de SOTA en una amplia gama. gama de puntos de referencia de estructura y función. El segundo paso es lograr este rendimiento mediante un estudio de los atributos óptimos, que incluye no solo la arquitectura del modelo, sino también el software y el hardware utilizados para la creación, el entrenamiento y la implementación del modelo. De acuerdo con las necesidades de la aplicación, proporcionan dos modelos preentrenados llamados Ankh big y Ankh base, cada uno de los cuales ofrece dos formas de cálculo. Llaman a su modelo insignia, Ankh grande, Ankh, por conveniencia. Los modelos preentrenados están disponibles en su página de GitHub. También tiene detalles sobre cómo ejecutar el código base.