Estás leyendo la publicación: Conozca LLMScore: una nueva canalización de coincidencia de seguimiento de instrucciones basada en LLM para evaluar la alineación entre indicaciones de texto e imágenes sintetizadas en la síntesis de texto a imagen
La investigación de síntesis de texto a imagen ha avanzado significativamente en los últimos años. Sin embargo, las medidas de evaluación se han retrasado debido a las dificultades para adaptar las evaluaciones con diferentes propósitos, capturando efectivamente la alineación compuesta de texto e imagen (por ejemplo, color, conteo y posición) y produciendo la puntuación de manera comprensible. A pesar de ser ampliamente utilizadas y exitosas, las métricas de evaluación establecidas para la síntesis de texto a imagen como CLIPScore y BLIP han necesitado ayuda para capturar la alineación a nivel de objeto entre texto e imagen.
El mensaje de texto “Un libro rojo y un jarrón amarillo” se muestra en la Figura 1 como un ejemplo del conjunto de datos de Concept Conjunction. La visión izquierda se alinea con la consulta de texto. Al mismo tiempo, la imagen correcta no proporciona un libro rojo, el color correcto para el jarrón y una flor amarilla adicional. Si bien las métricas existentes (CLIP, NegCLIP, BLIP) predicen puntajes similares para ambas imágenes, al no poder distinguir la imagen correcta (a la izquierda) de la incorrecta (a la derecha), los jueces humanos pueden hacer una evaluación correcta y clara (1.00 vs 0.45/0.55) de estas dos imágenes en objetivos generales y de conteo de errores.
Además, estas medidas ofrecen una puntuación única y opaca que oculta la lógica subyacente detrás de cómo se alinearon las imágenes sintetizadas con las indicaciones de texto proporcionadas. Además, estas medidas basadas en modelos son rígidas y no pueden adherirse a diversos estándares que prioricen distintos objetivos de evaluación de texto a imagen. Por ejemplo, la evaluación puede acceder a la semántica a nivel de una imagen (General) o información más detallada a nivel de un elemento (Recuento de errores). Estos problemas impiden que las mediciones actuales estén en línea con las valoraciones subjetivas. En este estudio, investigadores de la Universidad de California, la Universidad de Washington y la Universidad de California descubren las potentes capacidades de razonamiento de los modelos de lenguaje extenso (LLM), presentando LLMScore, un marco único para evaluar la alineación de texto e imagen en la conversión de texto a imagen. síntesis.
El método humano de evaluar la alineación de texto e imagen, que implica verificar la precisión de los elementos y las características mencionadas en el mensaje de texto, sirvió como modelo. LLMScore puede imitar la revisión humana accediendo a la composicionalidad en muchas granularidades y produciendo puntajes de alineación con justificaciones. Esto brinda a los usuarios una comprensión más profunda del rendimiento del modelo y las motivaciones detrás de los resultados. Su LLMScore recopila información visolingüística basada en modelos de visión y lenguaje y LLM, por lo que captura la composicionalidad de múltiples granularidades en el texto y la imagen para mejorar la evaluación de la síntesis compuesta de texto a imagen.
Su método utiliza modelos de lenguaje y visión para convertir una imagen en descripciones visuales multigranulares (a nivel de imagen y de objeto), lo que nos permite expresar las características compositivas de numerosos objetos en el lenguaje. Al razonar la alineación entre las indicaciones de texto y las imágenes, combinan estas descripciones con indicaciones de texto y las ingresan en modelos de lenguaje extenso (LLM), como GPT-4. Las métricas existentes luchan por capturar la composicionalidad, pero su LLMScore lo hace al detectar la alineación del texto y la imagen a nivel de objeto (Figura 1). Esto da como resultado puntajes que están bien asociados con la evaluación humana y tienen justificaciones lógicas (Figura 1).
Además, al adaptar la instrucción de evaluación para los LLM, su LLMScore puede seguir de forma adaptativa diferentes estándares (general o conteo de errores). Por ejemplo, pueden pedir a los LLM que califiquen la alineación general del mensaje de texto y la imagen para evaluar el objetivo general. Alternativamente, podrían pedirles que confirmen el objetivo de conteo de errores preguntando: “¿Cuántos errores de composición hay en la imagen?” Para mantener el determinismo de la conclusión del LLM, también brindan información explícita sobre las diferentes formas de errores del modelo de texto a imagen en la instrucción de evaluación. Debido a su adaptabilidad, su sistema puede usarse para varios trabajos de texto a imagen y criterios de evaluación.
Los modelos modernos de texto a imagen, como Stable Diffusion y DALLE, se prueban en su configuración experimental utilizando una variedad de conjuntos de datos, incluidos conjuntos de datos rápidos para uso general (MSCOCO, DrawBench, PaintSkills), así como con fines de composición (Conjunción de conceptos abstractos, Conjunción de atributos, Contraste vinculante). Realizaron numerosas pruebas para confirmar el uso de LLMScore y demostrar que se alinea con los juicios humanos sin necesidad de capacitación adicional. En todos los conjuntos de datos, su puntaje LLMS tuvo la correlación humana más fuerte. En conjuntos de datos de composición, superan las métricas CLIP y BLIP de uso común, respectivamente, en un 58,8 % y un 31,27 % de Kendall.
En conclusión, brindan LLMScore, el primer esfuerzo para demostrar la efectividad de los modelos de lenguaje extenso para la evaluación de texto a imagen. En concreto, su artículo aporta lo siguiente:
• Sugieren el LLMScore. Este nuevo marco proporciona puntajes que expresan con precisión la composicionalidad multigranularidad (nivel de imagen y nivel de objeto) para evaluar la alineación entre indicaciones de texto e imágenes sintetizadas en la síntesis de texto a imagen.
• Su LLMScore genera puntajes de alineación precisos con justificaciones siguiendo varias directivas de evaluación (recuento general y de errores).
• Usan una variedad de conjuntos de datos (tanto de composición como de propósito general) para verificar el LLMScore. Entre las medidas ampliamente utilizadas (CLIP, BLIP), su LLMScore sugerido obtiene la correlación humana más fuerte.