Investigadores de IA de Adobe Subtítulos de imágenes de código abierto AI CLIP-S: un modelo de IA de subtítulos de imágenes que produce descripciones detalladas de las imágenes

Estás leyendo la publicación: Investigadores de IA de Adobe Subtítulos de imágenes de código abierto AI CLIP-S: un modelo de IA de subtítulos de imágenes que produce descripciones detalladas de las imágenes

La mayoría de las veces, los objetivos de similitud de texto se utilizan para entrenar algoritmos modernos de subtítulos de imágenes. Sin embargo, los modelos entrenados con la metodología de similitud de texto a menudo descuidan las características particulares e intrincadas de una imagen que la distinguen de otras porque los títulos de referencia en conjuntos de datos públicos describen con frecuencia las cosas más comunes. El equipo de Adobe decidió resolver este problema construyendo sobre el modelo CLIP existente de OpenAI. CLIP se utiliza para evaluar subtítulos generados en los que se compara una cadena de texto y una imagen, y cuanto mayor sea la similitud, mejor describirá el texto la imagen. Los investigadores desarrollaron el modelo de subtítulos usando entrenamiento RL y un mecanismo de recompensa llamado CLIP-S. CLIP-S es un modelo de subtítulos de imágenes multimodal desarrollado por un equipo de investigadores de Adobe y la Universidad de Carolina del Norte (UNC). Este modelo genera descripciones precisas de las imágenes. El modelo también fue recientemente de código abierto. Los humanos prefirieron abrumadoramente los subtítulos anteriores al comparar los producidos por CLIP-S con los producidos por otros modelos. Un documento para la Conferencia Anual de 2022 del Capítulo de América del Norte de la Asociación de Lingüística Computacional describió el modelo y los experimentos en profundidad (NAACL).

Para crear subtítulos para una imagen de entrada, CLIP-S utiliza un paradigma basado en transformadores. Durante el entrenamiento, el modelo usa CLIP para evaluar qué tan bien el pie de foto generado describe la imagen. La puntuación final sirve como señal para las recompensas de aprendizaje por refuerzo (RL). Además, los investigadores fueron cautelosos al evaluar la gramática de los subtítulos generados al refinar CLIP usando instancias de subtítulos negativos producidos al cambiar arbitrariamente los subtítulos de referencia. Esto demostró que el modelo CLIP-S tenía el defecto de producir subtítulos gramaticalmente incorrectos con frecuencia. Al dar ejemplos negativos con tokens repetidos, insertados o mezclados aleatoriamente, resolvieron este problema optimizando el componente codificador de texto de CLIP.

🔥 Recomendado:  Las 7 mejores VPN de Amazon Prime 2023 (desbloquéalas desde cualquier lugar)

Junto con el ajuste fino del codificador de texto, también introdujeron un cabezal clasificador de perceptrón de dos capas para determinar si una oración es gramaticalmente correcta. El equipo también creó un nuevo conjunto de datos de referencia, FineCapEval, que comprende leyendas de imágenes más detalladas que definen los fondos de las imágenes y las relaciones entre los objetos para resolver las deficiencias de los métodos de evaluación de leyendas de imágenes anteriores. En esta colección se incluyen quinientas fotos de la división de validación de subtítulos conceptuales y la división de prueba de MS COCO. La información compleja sobre cada imagen se anotó manualmente. Estos hechos incluían el fondo, los objetos en la imagen, las relaciones entre los objetos y una leyenda descriptiva que contenía las tres características mencionadas anteriormente. Para cada uno de los cuatro criterios, hay 1000 fotos y 5000 leyendas en el conjunto de datos.

Usando el conjunto de datos COCO como estándar, el modelo se comparó con numerosos modelos de referencia. Un modelo de referencia obtuvo mejores resultados que CLIP-S en medidas basadas en texto como BLEU, pero CLIP-S superó en recuperación de texto a imagen y métricas de texto de imagen. Además, superó “sustancialmente” las líneas de base en el nuevo punto de referencia FineCapEval del equipo. Los modelos multimodales de IA de imagen y texto son un tema de investigación candente debido a los importantes avances tecnológicos diarios. La capacidad de la comunidad de investigación para usar CLIP-S para tareas que involucran imágenes y texto emociona al equipo.

Este artículo está escrito como un artículo de resumen por el personal de Marktechpost basado en el trabajo de investigación ‘Subtítulos de imagen de granularidad fina con CLIP Reward‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, github y artículo de referencia.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools