Estás leyendo la publicación: Investigadores del MIT proponen AbMAP: un modelo de lenguaje de proteínas (PLM) personalizado para anticuerpos
Algunos de los candidatos a medicamentos más prometedores en las terapias actuales han sido los anticuerpos. La increíble diversidad estructural de los anticuerpos, que les permite reconocer una gama increíblemente amplia de posibles objetivos, debe agradecer este éxito terapéutico. Sus secciones hipervariables, que son esenciales para la especificidad funcional de los anticuerpos, es donde surge esta variedad. En el pasado, se han utilizado métodos como la inmunización o métodos de evolución dirigida como la selección de presentación de fagos para desarrollar experimentalmente un anticuerpo contra un objetivo de interés. Sin embargo, el procedimiento de creación y selección requiere mucho tiempo y dinero. El espacio de la estructura potencial debe explorarse a fondo, lo que puede proporcionar a los candidatos propiedades de unión desfavorables.
Dado que las secciones hipervariables de las estructuras de anticuerpos muestran patrones evolutivos estructuralmente distintivos, los métodos generales de predicción de estructuras de proteínas pueden tener dificultades para predecirlos. Además, es difícil tener en cuenta fácilmente los problemas posteriores. Por lo tanto, existe la necesidad de técnicas computacionales que refinen de manera más efectiva un pequeño número de candidatos determinados experimentalmente o que desarrollen un nuevo anticuerpo desde cero para un objetivo específico. Modelar la estructura 3D del anticuerpo completo o sus CDR ha sido un paso en este enfoque, pero la precisión de estos modelos podría ser mejor. No puede realizar una exploración computacional a gran escala ni analizar el repertorio de anticuerpos de una persona, que puede comprender millones de secuencias porque son lentas y toman muchos minutos por estructura de anticuerpo.
Recientemente, se han creado representaciones de proteínas de alta dimensión utilizando métodos de aprendizaje automático empleados en el procesamiento del lenguaje natural. Los modelos de lenguaje de proteínas permiten la predicción de las propiedades de las proteínas mientras capturan implícitamente las características estructurales. Un enfoque es contratar PLM capacitados en el corpus de todas las proteínas cuando se habla de anticuerpos. Nos referimos a estos como PLM “fundacionales”, que es el lenguaje de aprendizaje automático para grandes modelos de uso múltiple. Sin embargo, la diversidad de secuencias en las CDR no está limitada evolutivamente, lo que significa que las CDR de anticuerpos violan directamente la premisa de distribución detrás de los PLM fundamentales. Una de las principales razones por las que AlphaFold 2 funciona con menos eficacia en los anticuerpos que en las proteínas ordinarias es la necesidad de alineaciones de secuencias múltiples de mayor calidad.
Debido a esto, investigadores del MIT y Sanofi R&D Cambridge han sugerido un conjunto diferente de métodos conocidos como IgLM. Estos métodos entrenan al PLM solo en repertorios de secuencias de receptores de células B y anticuerpos. Estos métodos son más efectivos para abordar la hipervariabilidad de las CDR. Aún así, necesitan el corpus variado de todas las secuencias de proteínas para basar su entrenamiento, lo que les impide acceder a la comprensión profunda proporcionada por los PLM básicos. Además, los métodos actuales como AntiBERTa gastan un poder explicativo significativo en el modelado de las no CDR del anticuerpo, que son considerablemente menos variadas y menos importantes para la especificidad de unión del anticuerpo.
Su principal contribución conceptual es utilizar técnicas de aprendizaje supervisado entrenadas en la estructura de anticuerpos y perfiles de especificidad de unión para resolver la deficiencia de los PLM fundamentales en regiones hipervariables de anticuerpos. En concreto introducen tres importantes avances:
- Estamos maximizando el uso de los datos disponibles al restringir la tarea de aprendizaje a regiones de anticuerpos hipervariables.
- Están refinando las incrustaciones de la región hipervariable del PLM de referencia para capturar mejor la estructura y la función del anticuerpo.
- Está desarrollando una formulación de aprendizaje supervisado multitarea que considera la especificidad de unión y la estructura de la proteína del anticuerpo para supervisar la representación.
Por lo tanto, este enfoque puede ayudar a evaluar las posibles secuencias de anticuerpos para determinar la capacidad farmacológica antes de los costosos estudios in vitro y preclínicos.