Estás leyendo la publicación: Baidu propone ERNIE-VIL 2.0, un marco de aprendizaje contrastivo de múltiples vistas que tiene como objetivo adquirir una representación intermodal más robusta mediante la creación simultánea de intramodales e intermodales…
Los modelos de preentrenamiento de visión y lenguaje (VLP) han logrado un progreso significativo en varias tareas intermodales, como la respuesta visual a preguntas (VQA) y la recuperación intermodal, durante los dos años anteriores. La mayoría de los esfuerzos anteriores basados en codificadores de transformadores multimodales se concentran en la creación de varias tareas de preentrenamiento de proxy (por ejemplo, modelado de lenguaje enmascarado (MLM) y modelado de región enmascarada (MRM)) para aprender la representación intermodal conjunta. Por otro lado, las capas de atención intermodales en el codificador intentan fusionar diferentes características visuales/textuales a nivel de token para comprender la representación conjunta con interacciones masivas, lo que genera altos costos informáticos para los sistemas del mundo real, como el intermodal en línea. sistema de recuperación.
La investigación actual basada en la arquitectura de codificador dual emplea un marco de trabajo eficiente en computación con una ligera interacción entre modos, lo que produce un rendimiento equivalente en tareas de visión-lenguaje mediante el entrenamiento en emparejamientos de imagen y texto a gran escala para resolver esta restricción. Sin embargo, debido a que la correlación intermodal establecida solo depende de una vista única para cada modalidad, intentan desarrollar la alineación intermodal a través del aprendizaje contrastivo de vista única. De hecho, la correlación intramodal que pasan por alto tiene el potencial de mejorar la representación unimodal y contribuir al desarrollo de una alineación intermodal superior. Además, con frecuencia existen correlaciones débiles en emparejamientos de imagen y texto rastreados por la web ruidosos con puntos de vista visuales/textuales intrínsecos, lo que amplía la brecha semántica intermodal.
Ofrecen ERNIE-ViL 2.0, un marco de aprendizaje contrastivo multivista para la recuperación intermodal, con la intención de aprender una representación intermodal robusta mediante el modelado de correlaciones intermodales e intramodales entre distintas vistas. A diferencia de los enfoques tradicionales de aprendizaje contrastivo de vista única, el aprendizaje contrastivo de vista múltiple aprende sobre las correlaciones tanto intramodales como intermodales. De manera similar, CMC emplea conocimiento contrastivo de múltiples vistas para el aprendizaje de representaciones visuales, lo que da como resultado una representación más sólida. Su enfoque crea numerosos puntos de vista visuales/textuales para mejorar las representaciones dentro y entre modalidades.
Aprendizaje contrastivo con varias perspectivas versus aprendizaje contrastivo de vista única El aprendizaje contrastivo de vista única se basa únicamente en una única asociación intermodal entre una perspectiva visual y textual. A través de la construcción de numerosas perspectivas posibles, el aprendizaje contrastivo multivisión podría aprender acerca de muchos tipos de correlaciones intramodales e intermodales.
Generan específicamente pares de imagen-imagen y pares de texto-texto para pares de vistas contrastivas intramodales para mejorar la representación con cada modalidad. Además de las vistas visuales/textuales intrínsecas, generan secuencias de etiquetas de objetos como una vista textual única para disminuir los impactos de los datos multimodales ruidosos y facilitar el aprendizaje de alineación entre visión y lenguaje. Entrenan un modelo en inglés en 29 millones de conjuntos de datos de acceso público utilizando la arquitectura de codificador dual y obtienen un rendimiento competitivo en tareas de recuperación multimodal. Aumentaron el tamaño de los conjuntos de datos de entrenamiento a 1500 millones de pares de imagen y texto en chino, lo que generó ganancias considerables con respecto a los resultados anteriores de SOTA en la recuperación multimodal china.
En general, dividen sus contribuciones en tres categorías:
1. Ofrecemos el primer marco de aprendizaje multivista para la recuperación multimodal que utiliza varias perspectivas para producir representaciones multimodales flexibles y sin variaciones en la vista.
2. Ofrecen etiquetas de objetos como vistas textuales excepcionales, cerrando así la brecha semántica entre la imagen y el texto y facilitando el aprendizaje de la alineación intermodal en datos ruidosos a gran escala.
3. Usando solo conjuntos de datos ruidosos disponibles públicamente, cree un punto de referencia creíble y comparable para la recuperación multimodal en inglés. Además, su modelo obtiene el rendimiento de SOTA en la recuperación multimodal china después de haber sido entrenado en 1500 millones de pares de imagen y texto en chino.
Las implementaciones oficiales de numerosos modelos de formación previa de la familia ERNIE que cubren temas como Comprensión y generación de idiomas y Comprensión y generación multimodal están disponibles en GitHub.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘ERNIE-VIL 2.0: APRENDIZAJE CONTRASTIVO MULTIVISTA PARA EL ENTRENAMIENTO PREVIO IMAGEN-TEXTO‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools