Una nueva investigación de inteligencia artificial (IA) se centra en la personalización del arte generativo enseñando a un modelo muchos conceptos nuevos a la vez y combinando…

Estás leyendo la publicación: Una nueva investigación de inteligencia artificial (IA) se centra en la personalización del arte generativo enseñando a un modelo muchos conceptos nuevos a la vez y combinando…

Generación de texto a imagen El uso de modelos de difusión ha sido un tema candente en el modelado generativo durante los últimos años. Los modelos de difusión son capaces de generar imágenes de alta calidad de los conceptos aprendidos durante el entrenamiento, pero esos conjuntos de datos de entrenamiento son muy grandes y no están personalizados. Ahora los usuarios quieren algo de personalización en estos modelos; en lugar de generar imágenes de un perro al azar en algún lugar, el usuario quiere crear imágenes de su perro en algún lugar de su casa. Una solución directa a este problema es volver a entrenar el modelo involucrando la nueva información en el conjunto de datos. Pero tiene ciertas limitaciones: Primeropara aprender un nuevo concepto, el modelo necesita una gran cantidad de datos, pero el usuario solo puede tener unos pocos ejemplos. Segundovolver a entrenar el modelo cada vez que necesitamos aprender un nuevo concepto es muy ineficiente. Terceroel aprendizaje de nuevos conceptos resultará en el olvido de los conceptos previamente aprendidos.

Para hacer frente a estas limitaciones, un equipo de investigadores de Universidad Carnegie Mellon, Universidad Tsinghua y Adobe Research propone un método para aprender múltiples conceptos nuevos sin necesidad de volver a entrenar el modelo por completo, solo usando algunos ejemplos. Hicieron una lista de sus experimentos y hallazgos en el artículo “Personalización multiconcepto de difusión de texto a imagen.

🔥 Recomendado:  Grammarly Review 2023: la herramienta más increíble para mejorar tus habilidades de escritura

En este documento, el equipo propuso una técnica de ajuste fino, Difusión personalizada para los modelos de difusión de texto a imagen, que identifica un pequeño subconjunto de ponderaciones del modelo de modo que ajustar solo esas ponderaciones es suficiente para modelar los nuevos conceptos. Al mismo tiempo, previene el olvido catastrófico y es altamente eficiente ya que solo se entrena una cantidad muy pequeña de parámetros. Para evitar aún más el olvido, la mezcla de conceptos similares y el ajuste excesivo al nuevo concepto, se elige un pequeño conjunto de imágenes reales con un título similar a las imágenes de destino y se alimenta al modelo mientras se ajusta (Figura 2).

El método se basa en Stable Diffusion, y se utilizan hasta 4 imágenes como ejemplos de entrenamiento durante el ajuste.

Obtuvimos que ajustar solo un pequeño conjunto de parámetros es efectivo y altamente eficiente, pero ¿cómo elegimos esos parámetros y por qué funciona?

La idea detrás de esta respuesta es simplemente una observación de los experimentos. El equipo entrenó los modelos completos en el conjunto de datos que involucraba nuevos conceptos y observó cuidadosamente cómo cambiaban los pesos de las diferentes capas. El resultado de la observación fue los pesos de las capas de atención cruzada fueron los más afectados, lo que implica que juega un papel importante mientras se ajusta. El equipo aprovechó eso y llegó a la conclusión de que el modelo se podía personalizar significativamente con solo ajustar las capas de atención cruzada. Y funciona magníficamente.

Además de esto, hay otro componente importante en este enfoque: El conjunto de datos de regularización. Dado que estamos utilizando solo unas pocas muestras para el ajuste fino, el modelo puede ajustarse demasiado al concepto de destino y provocar una desviación del lenguaje. Por ejemplo, entrenar en “moongate” hará que el modelo olvide la asociación de “luna” y “puerta” con los conceptos aprendidos previamente.. Para evitar esto, se selecciona un conjunto de 200 imágenes de la LAION-400M conjunto de datos con leyendas correspondientes que son muy similares a las leyendas de la imagen de destino. Al ajustar este conjunto de datos, el modelo aprende el nuevo concepto mientras revisa los conceptos aprendidos previamente. De ahí que se evite el olvido y la mezcla de conceptos (Figura 5).

🔥 Recomendado:  Investigadores crean nuevos sistemas de control para robots blandos

Las siguientes figuras y tablas muestran los resultados de los artículos:

Este trabajo concluye que Difusión personalizada es un método eficiente para

aumentar los modelos existentes de texto a imagen. Puede adquirir rápidamente un nuevo concepto con solo unos pocos ejemplos y componer múltiples conceptos juntos en entornos novedosos. Los autores descubrieron que optimizar solo unos pocos parámetros del modelo era suficiente para representar estos nuevos conceptos sin dejar de ser eficientes en memoria y computacionalmente.

Sin embargo, existen algunas limitaciones de los modelos previamente entrenados que hereda el modelo ajustado. Como se muestra en la Figura 11, Composiciones resistentes, por ejemplo, Una tortuga de peluche y un oso de peluche., sigue siendo un reto. Además, componer tres o más conceptos también es problemático. Abordar estas limitaciones puede ser una dirección futura para la investigación en este campo.