Este documento de AI propone CaFo: una cascada de modelos básicos que incorpora diversos conocimientos previos de varios paradigmas previos a la capacitación para un mejor aprendizaje de pocos intentos

Estás leyendo la publicación: Este documento de AI propone CaFo: una cascada de modelos básicos que incorpora diversos conocimientos previos de varios paradigmas previos a la capacitación para un mejor aprendizaje de pocos intentos

Muchos conjuntos de datos, redes neuronales convolucionales y transformadores han logrado un éxito notable en diversas tareas de visión. En cambio, el aprendizaje de pocas tomas, donde las redes se limitan a aprender de imágenes restringidas con anotaciones, también se convierte en un punto de acceso de investigación para varios escenarios con escasez de datos y recursos limitados. Numerosas publicaciones anteriores han sugerido el uso de metaaprendizaje, aprendizaje métrico y aumento de datos para mejorar la capacidad de generalización de un modelo. Los resultados recientes demuestran una buena capacidad de transferencia de disparo cero para la identificación visual de vocabulario abierto utilizando CLIP preentrenado por pares de imágenes y lenguaje a gran escala.

Se amplía aún más para la clasificación de pocos disparos mediante el seguimiento CoOp, CLIP-Adapter y Tip-Adapter, que también logra un rendimiento mejorado en varios conjuntos de datos posteriores. Esto muestra que la red tiene fuertes capacidades de representación, incluso cuando el material de capacitación de pocas tomas es inadecuado, lo que ayuda en gran medida al aprendizaje de pocas tomas en los dominios posteriores. Con el advenimiento de otros modelos de autosupervisión además de CLIP, ¿pueden colaborar e integrar de forma adaptativa sus conocimientos previos para convertirse en mejores aprendices de pocos intentos? Investigadores chinos sugieren CaFo, un modelo de Cascada de Fundación, para abordar este problema combinando la información de varios paradigmas de pre-entrenamiento con una canalización de “Solicitud, Producción, luego Caché”.

🔥 Recomendado:  Clickfunnels vs Unbounce: ¿Cuál es el mejor para ayudarte a hacer crecer tu negocio?

Combinan CLIP, DINO, DALL-E y GPT3 para brindarle a CaFo cuatro formas de conocimiento previo, como se ve en la Figura 1. CLIP está preentrenado para proporcionar características emparejadas para cada imagen y su texto de descripción correspondiente en el espacio de incrustación. Con conocimiento de idiomas contrastantes y textos con varios significados de categoría, CLIP puede categorizar las fotos con éxito. DINO utiliza el aprendizaje autosupervisado contrastivo para hacer coincidir las representaciones entre dos transformaciones de la misma imagen. DINO es un experto en diferenciar entre varias imágenes usando conocimiento contrastivo de visión. DALL-E está preentrenado usando emparejamientos de imagen y texto, al igual que CLIP, excepto que aprende a anticipar los tokens de imagen codificados en función de los tokens de texto proporcionados. Según el texto suministrado, DALLE podría utilizar el conocimiento generativo de la visión para generar imágenes sintéticas de alta calidad en un modo de disparo cero.

Cuando se le dan algunas plantillas escritas a mano como entrada, el GPT-3 entrenado en un corpus de lenguaje a gran escala crea automáticamente oraciones que parecen habla humana y son ricas en conocimiento generativo del lenguaje. Los cuatro modelos, por lo tanto, tienen diferentes objetivos de pre-entrenamiento y pueden ofrecer información complementaria para ayudar en la identificación visual de pocos disparos. Los escalonan en tres fases, concretamente:

1) Rápido: Sobre la base de algunas plantillas escritas a mano, utilizan GPT-3 para generar mensajes de texto para CLIP. El codificador textual en CLIP recibe estas instrucciones con una comprensión del lenguaje más sofisticada.

2) Producir: Usan DALL-E, que amplía los datos de entrenamiento de pocas tomas sin requerir más trabajo para la recopilación y la anotación, para producir imágenes de entrenamiento adicionales para varias categorías basadas en los textos específicos del dominio.

🔥 Recomendado:  ¿Cómo ver para qué palabras clave se clasifica mi sitio?

3) Cache: Para incorporar de forma adaptativa las predicciones de CLIP y DINO, utilizan un modelo de almacenamiento en caché. Construyen el modelo de caché con dos tipos de claves por los dos modelos pre-entrenados usando Tip-Adapter. Combinan de forma adaptativa las predicciones de dos claves almacenadas en caché como salida, utilizando CLIP de disparo cero como línea de base de distribución. CaFo puede mejorar el reconocimiento visual de pocos disparos al aprender a combinar conocimientos previos y usar sus propiedades complementarias al ajustar el modelo de caché liviano a través de mayores datos de entrenamiento.

A continuación se resumen sus principales contribuciones:

• Para mejorar el aprendizaje con pocas tomas, sugieren usar CaFo para incorporar información pasada de diversos paradigmas previos al entrenamiento.

• Llevan a cabo experimentos completos en 11 conjuntos de datos para la clasificación de pocos disparos, donde CaFo logra lo último en tecnología sin utilizar datos anotados adicionales.

• Colaboran con CLIP, DINO, GPT-3 y DALL-E para usar más indicaciones semánticas, enriquecer los datos de entrenamiento limitados de pocos disparos y ensamblar de forma adaptativa diversas predicciones a través del modelo de caché.

Revisar la Papel y Código. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 15k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools