Conozca ‘VALHALLA’, un método de aprendizaje automático que puede alucinar una imagen de palabras escritas y luego usarla para ayudar a traducir el texto a…

Estás leyendo la publicación: Conozca ‘VALHALLA’, un método de aprendizaje automático que puede alucinar una imagen de palabras escritas y luego usarla para ayudar a traducir el texto a…

Este artículo está escrito como un resumen por el personal de Marktechpost basado en el documento ‘VALHALLA: alucinación visual para traducción automática‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, github, proyecto y correo.

Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático

La traducción automática es una rama de la lingüística computacional que utiliza software para convertir texto o voz entre idiomas.

Por lo general, MT reemplaza palabras en un idioma con palabras en otro. Sin embargo, este método rara vez da como resultado una traducción decente porque se requiere el reconocimiento de frases completas y sus contrapartes más cercanas en el idioma de destino. Muchas palabras tienen varios significados y no todos los términos en un idioma tienen palabras comparables en otro.

Muchos investigadores han estado trabajando para resolver este desafío utilizando técnicas neuronales y estadísticas de corpus, lo que ha llevado a mejores traducciones, manejo de tipologías lingüísticas, traducción de modismos y aislamiento de anomalías.

Sin embargo, estos sistemas dependen en gran medida de datos de solo texto y no tienen una conexión explícita con el mundo real. Dicho esto, los investigadores ahora están buscando formas de sistemas MT multimodales que puedan incorporar una gran cantidad de datos externos en el proceso de modelado.

Por lo general, estos métodos requieren que las frases fuente se vinculen con las imágenes correspondientes durante el entrenamiento y la prueba. Esto limita específicamente su utilidad en situaciones en las que las imágenes no están disponibles durante la inferencia. Esto inspiró a los investigadores del MIT-IBM Watson AI Lab, MIT CSAIL y UC San Diego a trabajar en la traducción automática multimodal, que utiliza la modalidad visual para mejorar los sistemas de traducción automática.

En su trabajo reciente, los investigadores primero exploran si un sistema que solo tiene acceso a imágenes durante el tiempo de entrenamiento puede generalizarse a estas situaciones en su último trabajo. “La alucinación visual, o la capacidad de concebir escenas visuales, puede utilizarse para mejorar los sistemas de traducción automática”, afirman. Además, afirman que si un sistema de traducción tuviera acceso a imágenes durante el entrenamiento, se le podría enseñar a abstraer una imagen o representación visual de la oración del texto para fundamentar el proceso de traducción. Esta representación visual abstracta podría utilizarse en lugar de una imagen real para realizar una traducción multimodal durante el período de prueba.

Los investigadores presentan un marco básico pero efectivo de VisuAL HALLucinAtion (VALHALLA), que se basa en el aprendizaje automático para la traducción automática que integra imágenes durante el entrenamiento para construir un modelo de solo texto más exitoso. En la traducción automática, los modelos están entrenados para aumentar la representación del texto recuperada de la frase fuente con una representación visual latente que es similar a la que extrae un sistema MMT de una imagen real.

Fuente: http://www.svcl.ucsd.edu/publications/conference/2022/valhalla/main.pdf

En este estudio, la representación del texto aumentado se recupera de la frase fuente con una representación visual latente similar a la que extrae un sistema MMT de una imagen real. Utilizan un libro de códigos discreto (entrenado con VQGAN-VAE) para entrenar un transformador de alucinaciones autorregresivo para predecir tokens visuales a partir de palabras fuente de entrada para la traducción multimodal.

Un transformador de alucinaciones visuales mapea la oración fuente en una representación de imagen discreta. Luego, un transformador MMT mapea la oración de origen combinada con su representación de imagen discreta en la frase de destino. Las pérdidas por alucinación, traducción y consistencia se utilizan para entrenar los modelos de transformadores de principio a fin.

Según los investigadores, esta es la primera vez que se utiliza un transformador de imagen autorregresivo junto con un transformador de traducción para alucinar con éxito representaciones visuales discretas.

Sus hallazgos muestran que las representaciones visuales discretas funcionan mejor que las incrustaciones visuales continuas que se utilizan actualmente en los enfoques de TMM. Demostraron la superioridad de VALHALLA sobre líneas de base de traducción sólidas en tres conjuntos de datos típicos de MT con una amplia variedad de pares de idiomas y diferentes tamaños de datos de entrenamiento.

Los resultados revelan que VALHALLA supera a las técnicas MMT de última generación más relevantes que utilizan representaciones de imágenes continuas en un promedio de 23 % BLEU en comparación con la línea de base de traducción de solo texto. En contextos de traducción con recursos insuficientes, los beneficios sobre la línea de base de solo texto son tan grandes como +3.1 BLEU, lo que confirma la idea de que las alucinaciones visuales pueden tener una relevancia práctica significativa en estos entornos. Investigaciones adicionales respaldan esto, indicando que, en contextos textuales limitados, los modelos VALHALLA de hecho usan la alucinación visual para mejorar las traducciones.

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools

🔥 Recomendado:  Conozca a Prismer: un modelo de visión y lenguaje de código abierto con un conjunto de expertos