Conozca ONE-PEACE: un modelo de representación general hacia modalidades ilimitadas en diferentes modalidades

Estás leyendo la publicación: Conozca ONE-PEACE: un modelo de representación general hacia modalidades ilimitadas en diferentes modalidades

Los modelos de representación han recibido mucha atención en visión por computadora, voz, procesamiento de lenguaje natural, etc. Los modelos de representación exhiben una alta generalización en varias tareas posteriores después de aprender de una gran cantidad de datos. Además, existe una demanda creciente de modelos de representación debido al espectacular aumento de los modelos de lenguaje a gran escala (LLM). Los modelos de representación han demostrado recientemente su importancia fundamental para permitir que los LLM comprendan, experimenten e interactúen con otras modalidades (como la visión). La investigación anterior se ha centrado principalmente en el desarrollo de modelos de representación unimodales con topologías únicas y tareas de preentrenamiento debido a las diversas propiedades de varias modalidades.

Esfuerzos recientes en el aprendizaje de lenguaje de visión y lenguaje de audio han mostrado resultados prometedores gracias al desarrollo de arquitecturas unificadas y actividades de preentrenamiento efectivas. Sin embargo, aún debe estar disponible la investigación sobre la creación de modelos universales que puedan usarse para modalidades de lenguaje, audio y visuales. A pesar de producir resultados sobresalientes, los modelos de representación unimodal necesitan ayuda para usar datos multimodales, como emparejamientos de imagen-texto y audio-texto, de manera eficiente, lo que dificulta su aplicación en tareas multimodales. Use una sola tarea de predicción enmascarada con Multiway Transformer para analizar las modalidades de texto e imágenes para el entrenamiento previo.

La escalabilidad a otras modalidades, como el audio, está restringida ya que el trabajo de predicción enmascarado necesita el modelo CLIP previamente entrenado para discretizar la entrada de imágenes. Ofrece un amplio enfoque de precapacitación que se puede utilizar para modalidades de lenguaje, audio y visuales sin modelos externos (como CLIP). Aún así, necesita expandir el enfoque a los datos multimodales. En este estudio, investigan un método escalable para desarrollar un modelo de representación general que pueda adaptarse a cualquier número de modalidades. Promueven los siguientes requisitos para un modelo de representación amplio: 1. El diseño del modelo debe ser lo suficientemente adaptable para manejar la interacción multimodal y múltiples modalidades. 2. Los ejercicios previos al entrenamiento deben promover la alineación entre las modalidades y la extracción de información dentro de cada modalidad. 3. Los ejercicios de preentrenamiento deben ser amplios y sencillos para que puedan utilizarse con diversas modalidades.

🔥 Recomendado:  22 mejores sitios para ver películas gratis

Debido a estos incentivos, los investigadores de la Academia DAMO y la Universidad de Ciencia y Tecnología de Huazhong sugieren ONE-PEACE, un modelo con parámetros 4B que puede alinear e integrar sin problemas las representaciones en las modalidades visuales, de audio y de lenguaje. La arquitectura de ONE-PEACE comprende un codificador de fusión de modalidad y muchos adaptadores de modalidad. Cada modalidad incluye un adaptador para transformar las entradas sin procesar en secuencias de funciones. El codificador de fusión de modalidad utiliza las secuencias de características basadas en la arquitectura Transformer. Una capa de autoatención común y varias redes de alimentación directa (FFN) de modalidad están presentes en cada bloque de transformador. Durante la modalidad FFN ayuda en la extracción de información dentro de las modalidades. La capa de autoatención utiliza el mecanismo de atención para permitir la interacción entre las características multimodales.

La obvia división del trabajo de esta arquitectura simplifica la adición de nuevas modalidades y simplemente requiere la adición de adaptadores y FFN. Proporcionan dos asignaciones de preentrenamiento independientes de la modalidad para ONE-PEACE. El primero es el aprendizaje contrastivo intermodal, que combina la educación contrastiva visión-lenguaje y el aprendizaje contrastivo audio-lenguaje para alinear con éxito los espacios semánticos de las tres modalidades de visión, audio y lenguaje. El segundo método es el aprendizaje contrastivo de eliminación de ruido intramodal, que se puede considerar como una combinación de predicción enmascarada y conocimiento contrastivo. La pérdida de contraste se realiza entre las características enmascaradas de grano fino y las características visibles, como parches de imagen, tokens de idioma o características de forma de onda de audio.

🔥 Recomendado:  Cómo crear anuncios de video profesionales con cero conocimientos

ONE-PEACE se puede expandir a infinitas modalidades gracias al diseño del modelo fácil de escalar y las actividades de preentrenamiento. Juntas, estas actividades mejoran el rendimiento del modelo durante el ajuste fino mientras preservan la capacidad de recuperación intermodal. También eliminan el requisito de planes específicos de modalidad porque son ubicuos para todas las modalidades. Realizan estudios en profundidad sobre diversas tareas en diversas modalidades, tales como actividades de visión, audio, visión-lenguaje y audio-lenguaje. ONE PEACE logra resultados líderes en la industria sin usar modelos pre-entrenados de visión o lenguaje para la inicialización en tareas unimodales y multimodales. El código está disponible públicamente en GitHub.