Estás leyendo la publicación: Investigadores de UC Berkeley proponen IntructPix2Pix: un modelo de difusión para editar imágenes a partir de instrucciones escritas por humanos
En los últimos años, las posibles aplicaciones de los modelos de texto a imagen se han incrementado enormemente. Sin embargo, la edición de imágenes para la instrucción escrita por humanos es un subcampo que todavía tiene numerosas deficiencias. El mayor inconveniente es lo difícil que es recopilar datos de entrenamiento para esta tarea.
Para resolver este problema, un equipo de investigación de la Universidad de Berkeley propuso una técnica para crear un conjunto de datos emparejados que incluye múltiples modelos grandes entrenados previamente en varias modalidades, basado en un modelo de lenguaje grande (GPT-3) y una conversión de texto a imagen. modelo (difusión estable). Después de producir el conjunto de datos emparejados, los autores entrenaron un modelo de difusión condicional en los datos generados para producir la imagen editada a partir de una imagen de entrada y una descripción textual de cómo editarla.
Generación de conjuntos de datos
Los autores primero trabajaron solo en el dominio del texto, utilizando un gran modelo de lenguaje para incluir leyendas de imágenes, generar instrucciones de edición y luego generar las leyendas de texto editadas. Como ejemplo, el modelo de lenguaje puede producir la instrucción de edición plausible “haz que monte un dragón” y la leyenda de salida debidamente actualizada “fotografía de una niña montando un dragón” dada la leyenda de entrada “fotografía de una niña montando un caballo”, como visto en la figura anterior. Trabajar en el dominio del texto hizo posible producir una amplia gama de ajustes mientras se preservaba una relación entre las instrucciones del idioma y los cambios de imagen.
Se utilizó un conjunto de datos escrito por humanos relativamente modesto de trillizos de edición (subtítulos de entrada, instrucciones de edición y subtítulos de salida) para ajustar GPT-3 para entrenar el modelo. Los autores crearon manualmente las instrucciones y los subtítulos de salida para el conjunto de datos de ajuste fino después de seleccionar 700 muestras de subtítulos de entrada del conjunto de datos LAION-Aesthetics V2 6.5+. Con la ayuda de estos datos y los parámetros de entrenamiento predeterminados, se logró el ajuste fino del modelo GPT-3 Davinci para una sola época mientras se aprovechaba su vasto conocimiento y habilidades de generalización.
Luego convirtieron dos subtítulos en dos imágenes utilizando un algoritmo de texto a imagen previamente entrenado. El hecho de que los modelos de texto a imagen no garanticen la consistencia visual, incluso con ligeros cambios en el mensaje de acondicionamiento, dificulta la conversión de dos subtítulos en dos imágenes comparables. Dos instrucciones muy similares, como “dibuja un gato” y “dibuja un gato negro”, por ejemplo, podrían dar lugar a dibujos de gatos muy diversos. Por lo tanto, emplean Prompt-to-Prompt, una nueva técnica diseñada para promover la similitud entre varias generaciones de un modelo de difusión de texto a imagen. Una comparación de imágenes muestreadas con y sin solicitud a solicitud es
se muestra en la siguiente figura.
IntructPix2Pix
Después de generar los datos de entrenamiento, los autores entrenaron un modelo de difusión condicional, llamado InstructPix2Pix, que edita imágenes a partir de instrucciones escritas. El modelo se basa en Stable Diffusion, un modelo de difusión latente de texto a imagen a gran escala. Los modelos de difusión utilizan una serie de codificadores automáticos de eliminación de ruido para aprender a crear muestras de datos. La difusión latente, que opera en el espacio latente de un codificador automático variacional preentrenado, mejora la efectividad y la calidad de los modelos de difusión. Los autores inicializaron los pesos del modelo con un punto de control de difusión estable preentrenado, utilizando sus amplias capacidades de generación de texto a imagen, porque el ajuste fino de un modelo de difusión de imágenes grande supera al entrenamiento de un modelo desde cero para tareas de traducción de imágenes, especialmente cuando se entrena en pareja. los datos son escasos. Se utilizó la guía de difusión sin clasificador, una técnica para equilibrar la calidad y la diversidad de las muestras producidas por un modelo de difusión.
Resultados
El modelo realiza una generalización de disparo cero tanto para imágenes reales arbitrarias como para instrucciones naturales escritas por humanos a pesar de haber sido entrenado completamente en muestras sintéticas.
El paradigma proporciona una edición de imágenes intuitiva que puede ejecutar una amplia gama de alteraciones, incluido el reemplazo de objetos, cambios de estilo de imagen, cambios de configuración y cambios de medios creativos, como se ilustra a continuación.
Los autores también realizaron un estudio sobre el sesgo de género (ver más abajo), que generalmente se ignora en los artículos de investigación y demuestra los sesgos en los que se basan los modelos.