Estás leyendo la publicación: Conozca Prompt-to-Prompt: un modelo de IA de inteligencia artificial que brinda capacidades de edición de imágenes a los modelos de texto a imagen
Está bien asumir que todos han oído hablar de Stable Diffusion o DALL-E en este momento. La gran locura por los modelos de texto a imagen se ha apoderado de todo el dominio de la IA en los últimos meses, y hemos visto ejecuciones realmente geniales.
Los modelos de imagen de lenguaje a gran escala (LLI) han demostrado un rendimiento extremadamente agradable en la generación de imágenes y la comprensión semántica. Están capacitados en conjuntos de datos extremadamente grandes (de ahí viene la gran escala, no el tamaño del modelo) y utilizan métodos avanzados de generación de imágenes como codificadores automáticos o modelos de difusión.
Estos modelos pueden generar imágenes impresionantes o incluso videos. Todo lo que necesita hacer es pasar el inmediato, digamos, “una ardilla tomando un café con Pikachu”, desea ver el modelo y esperar los resultados. Obtendrás una hermosa imagen para disfrutar.
Pero digamos que te gustó la ardilla y Pikachu en la imagen pero no estabas contento con la parte del café. Quiere cambiarlo a, digamos, una taza de té. ¿Pueden los modelos LLI hacer eso por usted? Bueno, sí y no. Puede cambiar su aviso y reemplazar el café con una taza de té, lo que también cambiará toda la imagen. Por lo tanto, desafortunadamente no puede usar el modelo para editar una parte de la imagen.
Ha habido algunos intentos de usar estos modelos para la edición de imágenes antes. Algunos métodos requieren que el usuario enmascare intencionalmente una parte de la imagen que se va a pintar y luego obligue a la imagen modificada a cambiar solo en la región enmascarada. Esto funciona bien, pero la operación de enmascaramiento manual es engorrosa y requiere mucho tiempo. Además, enmascarar la imagen puede eliminar información estructural crítica que se pasa por alto durante el proceso de repintado. Como resultado, algunas capacidades, como alterar la textura de un elemento determinado, están fuera del alcance de la pintura.
Bueno, dado que trabajamos con modelos de texto a imagen, ¿podemos utilizarlo y tener un método de edición mejor y más fácil? Esta fue la pregunta que hicieron los autores de este artículo, y tienen una buena respuesta para eso.
Un enfoque de edición de texto intuitivo y efectivo para modificar semánticamente imágenes en modelos de difusión condicionados por texto pre-entrenados usando Aviso a aviso manipulaciones se propone en este estudio. Ese fue el nombre elegante.
pero como funciona? ¿Cómo puede obligar a un modelo de texto a imagen a editar una imagen al modificarla con el aviso?
La clave de este problema está oculta en las capas de atención cruzada. Tienen una joya escondida que puede ayudarnos a resolver este problema de edición. El interno mapas de atención cruzada, los tensores de alta dimensión que unen los tokens extraídos del indicador con los píxeles de la imagen de salida, son las gemas que estamos buscando. Estos mapas contienen ricas relaciones semánticas que afectan a la imagen generada. Por lo tanto, acceder a ellos y modificarlos es el camino a seguir para la edición de imágenes.
La idea esencial es que las imágenes de salida se pueden alterar inyectando mapas de atención cruzada a lo largo del proceso de difusión, controlando qué píxeles atienden a qué tokens de texto durante la difusión. Los autores han mostrado varios métodos para controlar los mapas de atención cruzada para demostrar esta idea.
En primer lugar, se corrigen los mapas de atención cruzada y solo se cambia un único token en el indicador. Esto se hace para preservar la composición de la escena en la imagen de salida. El segundo método fue agregar nuevas palabras al mensaje de texto mientras se congelaba la atención en tokens anteriores. Hacerlo permite que una nueva atención fluya hacia los nuevos tokens, lo que permite la edición global o la modificación de un objeto específico. Por último, han modificado el peso de una determinada palabra en la imagen generada. Esto se usa para amplificar ciertas características de la imagen generada, como hacer que un osito de peluche sea más esponjoso.
El método Prompt-to-Prompt propuesto permite la edición intuitiva de imágenes modificando solo el mensaje de texto. No requiere ajustes ni optimización, funciona directamente en un modelo existente.
Este fue un breve resumen del método Prompt-to-Prompt. Puede encontrar más información en los enlaces a continuación si está interesado en obtener más información.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘EDICIÓN DE IMÁGENES DE INDICACIÓN A INDICACIÓN CON CONTROL DE ATENCIÓN CRUZADA‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, código y proyecto.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools