Google AI presenta PaLI: un modelo de imagen de idioma multilingüe de escala conjunta en más de 100 idiomas

Estás leyendo la publicación: Google AI presenta PaLI: un modelo de imagen de idioma multilingüe de escala conjunta en más de 100 idiomas

Aumentar la cantidad de parámetros en los conjuntos de datos de entrenamiento de ML mejora los resultados. Los estudios han demostrado que la escalabilidad en modelos avanzados de lenguaje y visión-lenguaje (VL) ha llevado a una amplia gama de capacidades y resultados sobresalientes en todas las tareas e idiomas.

Un grupo de investigadores de Google se propuso investigar la escalabilidad de los modelos de lenguaje e imagen y la interacción entre el lenguaje y los modelos de visión a gran escala. Su artículo, “PaLI: un modelo de imagen de lenguaje multilingüe de escala conjunta”, presenta un modelo de imagen de lenguaje unificado capacitado para llevar a cabo una amplia variedad de tareas en más de cien idiomas diferentes. La respuesta visual a preguntas, los subtítulos, la detección de objetos, la categorización de imágenes, el reconocimiento óptico de caracteres y el razonamiento de texto son solo algunos ejemplos de las muchas tareas que abarcan la visión, el lenguaje y las aplicaciones multimodales de imágenes y lenguaje.

Los investigadores investigan las interacciones de escalamiento intermodal además del escalamiento por modalidad. Aumentan la parte visual de nuestro modelo más grande a parámetros 4B y la parte lingüística a 13B durante el entrenamiento.

La arquitectura del modelo PaLI es fácil de entender, adaptar y usar. Un codificador Transformer procesa un texto de entrada, y luego el texto de salida es generado por un decodificador Transformer autorregresivo. La entrada al codificador Transformer para el procesamiento de imágenes incluye “palabras visuales” que representan la imagen que se va a transformar (ViT). La reutilización es fundamental para el modelo PaLI, ya que lo inicializamos con pesos de otros modelos de lenguaje y visión unimodal previamente entrenados, como mT5-XXL y ViT enormes. Esto permite la transferencia de habilidades del entrenamiento unimodal y reduce el costo computacional.

🔥 Recomendado:  3 maneras confiables en las que puede vender su casa en línea hoy

Para aprovechar al máximo los beneficios del entrenamiento previo de imagen de idioma, crearon WebLI, un conjunto de datos de imagen de idioma multilingüe compuesto por imágenes y texto disponibles públicamente.

Según ellos, es posible realizar acciones posteriores en una amplia variedad de idiomas debido a la capacidad de WebLI para traducir texto de conjuntos de datos en inglés a otros 109 idiomas. Expandieron el conjunto de datos de WebLI de mil millones de fotos y 2 mil millones de textos alternativos a 10 mil millones siguiendo una metodología similar a la utilizada por otros conjuntos de datos, como ALIGN y LiT.

La API de Cloud Vision se utilizó para realizar OCR en las imágenes y, junto con la anotación de texto web, produjo 29 000 millones de pares de imagen-OCR.

Los investigadores integraron todas las tareas en una API estandarizada (entrada: imagen + texto; salida: texto), que se comparte con la configuración previa al entrenamiento, lo que permite compartir conocimientos entre varios trabajos de imágenes y lenguaje. Para entrenar el modelo, utilizan los marcos de dominio público T5X y Flaxformer escritos en JAX y Flax. Con respecto al lado visual de las cosas, presentan y entrenan una gran arquitectura ViT, llamada ViT-e, con parámetros 4B que utilizan el marco BigVision disponible públicamente.

Utilizan una batería de puntos de referencia de visión y lenguaje difíciles, amplios y ampliamente utilizados, incluidos COCO-Captions, TextCaps, VQAv2, OK-VQA y TextVQA, para evaluar PaLI. En comparación con los grandes modelos de la literatura, el modelo PaLI obtiene resultados de última generación. Por ejemplo, logra mejores resultados que el modelo Flamingo mucho más grande (parámetros 80B) en varias tareas de VQA y subtítulos de imágenes. Mantiene el rendimiento incluso en tareas difíciles de solo lenguaje y solo de visión que no fueron el enfoque principal de la capacitación.

🔥 Recomendado:  Los SOP más importantes para las empresas de comercio electrónico B2B

Además, tiene mejores resultados que los modelos de la competencia tanto en subtítulos visuales multilingües como en respuestas visuales a preguntas. Los investigadores también investigan la interacción entre los componentes del modelo de imagen y lenguaje en relación con la escalabilidad del modelo y las áreas en las que sobresale el modelo. Los hallazgos muestran que el rendimiento óptimo se logra escalando ambos componentes juntos y que escalar el componente visual, que requiere menos parámetros, es particularmente importante. La mejora del rendimiento en varias tareas multilingües también depende en gran medida de la capacidad de escalar.

El equipo espera que su trabajo conduzca a más investigaciones sobre modelos multilingües y multimodales.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘PaLI: un modelo de imagen de idioma multilingüe de escala conjunta‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y artículo de referencia.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools