Estás leyendo la publicación: Conozca CLAMP: una nueva herramienta de inteligencia artificial para la predicción de actividad molecular que puede adaptarse a nuevos experimentos en el momento de la inferencia
Durante décadas, las tareas de predicción de las propiedades químicas, macroscópicas o biológicas de una molécula en función de su estructura química han sido un problema clave de la investigación científica. Se han utilizado muchos algoritmos de aprendizaje automático para descubrir correlaciones entre la estructura química y las características de dichas moléculas debido a los importantes avances tecnológicos de los últimos años. Además, el inicio del aprendizaje profundo marcó la introducción de modelos de predicción de actividad, que se utilizan para clasificar las moléculas restantes para las pruebas biológicas después de eliminar las moléculas con características indeseables. Estos modelos de predicción de actividad son los principales caballos de batalla de la industria de descubrimiento de fármacos computacionales, y se pueden comparar con modelos de lenguaje grande en procesamiento de lenguaje natural y modelos de clasificación de imágenes en visión artificial. Estos modelos de predicción de actividad basados en el aprendizaje profundo hacen uso de una variedad de descripciones de estructuras químicas de bajo nivel, que incluyen huellas dactilares químicas, descriptores, gráficos moleculares, la representación de cadenas SMILES o una combinación de estos.
Aunque estas arquitecturas han funcionado admirablemente, sus avances no han sido tan revolucionarios como los de la visión y el lenguaje. Por lo general, se utilizan pares de moléculas y etiquetas de actividad de experimentos biológicos, o “bioensayos”, para entrenar modelos de predicción de actividad. Dado que el proceso de anotar datos de entrenamiento (también conocidos como bioactividades) requiere mucho tiempo y trabajo, los investigadores están buscando métodos que entrenen de manera eficiente los modelos de predicción de actividad en un número menor de puntos de datos. Además, los algoritmos de predicción de actividad actuales aún no son capaces de utilizar información completa sobre las tareas de predicción de actividad, que se proporciona principalmente en forma de descripciones textuales del experimento biológico. Esto se debe principalmente al hecho de que estos modelos necesitan datos de medición del bioensayo o de la tarea de predicción de actividad en la que están entrenados o ajustados. Debido a esto, los modelos de predicción de actividad actuales no pueden realizar una predicción de actividad de disparo cero y tienen poca precisión predictiva para escenarios de pocos disparos.
Debido a sus capacidades informadas de cero y pocos disparos, los investigadores han recurrido a varios modelos de lenguaje científico para tareas con pocos datos. Pero estos modelos carecen significativamente de calidad predictiva en lo que respecta a la predicción de actividad. Trabajando en esta declaración de problema, un grupo de eminentes investigadores del Departamento de Aprendizaje Automático de la Universidad Johannes Kepler de Linz, Austria, descubrió que el uso de bases de datos químicas como datos de entrenamiento o preentrenamiento y la selección de un codificador de moléculas eficiente puede resultar en una mejor predicción de la actividad. Para abordar esto, sugieren el entrenamiento previo de moléculas de ensayo de lenguaje contrastivo (o CLAMP), una arquitectura novedosa para la predicción de actividades que puede condicionarse a la descripción textual de la tarea de predicción. Esta arquitectura modular consta de una molécula separada y un codificador de lenguaje que se entrenan previamente de manera contrastiva en estas dos modalidades de datos. Los investigadores también proponen un objetivo de preentrenamiento contrastivo sobre la información contenida en bases de datos químicas como datos de entrenamiento. Estos datos contienen órdenes de magnitudes más estructuras químicas que las contenidas en los textos biomédicos.
Como se indicó anteriormente, CLAMP utiliza un codificador de texto entrenable para crear incrustaciones de bioensayos y un codificador de moléculas entrenable para crear incrustaciones de moléculas. Se supone que estas incrustaciones están normalizadas por capas. El método presentado por investigadores austriacos también incluye una función de puntuación, que proporciona valores altos cuando una molécula está activa en un determinado bioensayo y valores bajos cuando no lo está. Además, la estrategia de aprendizaje contrastivo le da al modelo la capacidad de aprendizaje de transferencia de tiro cero, que, en pocas palabras, produce predicciones perspicaces para bioensayos invisibles. Según varias evaluaciones experimentales realizadas por los investigadores, se reveló que su metodología mejora significativamente el rendimiento predictivo en puntos de referencia de aprendizaje de pocos intentos y problemas de intento cero en el descubrimiento de fármacos y produce representaciones transferibles. Los investigadores creen que la arquitectura modular y el objetivo de preentrenamiento de su modelo fueron la razón principal detrás de su notable rendimiento.
Es importante recordar que, aunque CLAMP funciona admirablemente, todavía hay margen de mejora. Muchos elementos que afectan los resultados del bioensayo, como la dosificación química, no se tienen en cuenta. Además, puede haber ciertos casos de predicciones incorrectas que pueden ser provocadas por inconsistencias gramaticales y negaciones. No obstante, el método de aprendizaje contrastivo CLAMP exhibe el mejor rendimiento en tareas de descubrimiento de fármacos de predicción cero en varios conjuntos de datos grandes.
Revisar la Papel y Github. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 15k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools