Conozca Drag Your GAN: una manipulación interactiva basada en puntos en la variedad de imágenes generativas

Estás leyendo la publicación: Conozca Drag Your GAN: una manipulación interactiva basada en puntos en la variedad de imágenes generativas

Los modelos generativos profundos, incluidas las redes antagónicas generativas (GAN), han producido imágenes fotorrealistas aleatorias con un éxito sin precedentes. La capacidad de control sobre el material visual compuesto es crucial para los enfoques de síntesis de imágenes basados ​​en el aprendizaje en aplicaciones del mundo real. Por ejemplo, los usuarios de las redes sociales pueden querer cambiar la ubicación, la forma, la expresión y la pose del cuerpo de una persona o animal en una fotografía casual; la edición de medios experta y la previsualización de películas pueden requerir el esbozo rápido de escenas con diseños específicos; y los diseñadores de automóviles pueden querer cambiar la forma de sus diseños de forma interactiva.

Una técnica ideal de síntesis de imagen controlada debería tener las siguientes cualidades para adaptarse a las diversas necesidades de los usuarios. 1) Flexibilidad: debe poder regular muchas características espaciales, como la ubicación, la postura, la forma, la expresión y la disposición de los elementos o animales creados; 2) Precisión: Debe ser capaz de manejar características espaciales con gran precisión; 3) Generalidad: Debe aplicarse a una variedad de tipos de objetos sin restringirse a uno solo. Si bien los trabajos anteriores solo satisfacían por completo una o dos de estas características, este trabajo pretende cumplirlas por completo. La mayoría de los métodos anteriores usaban el aprendizaje supervisado, que usa datos anotados manualmente o modelos 3D anteriores para entrenar las GAN de manera controlable.

La síntesis de imágenes guiada por texto ha salido a la luz recientemente. Debido a esto, estos métodos a veces solo administran algunas características espaciales o dan al usuario poco control sobre el proceso de edición. También necesitan generalizar a nuevas categorías de objetos. Sin embargo, la guía de texto debe mejorar la flexibilidad y la precisión al modificar las características espaciales. Por ejemplo, no se puede usar para desplazar un elemento una determinada cantidad de píxeles. En este estudio, los autores investigan una manipulación interactiva basada en puntos potente pero infrautilizada para obtener una capacidad de control flexible, precisa y general de las GAN. Los usuarios pueden hacer clic en tantos puntos de control y puntos de destino como deseen en la imagen, y el objetivo es mover los puntos de control hacia los puntos de destino apropiados.

🔥 Recomendado:  Cómo usar ChatGPT para escribir una historia corta

El método que examina la manipulación basada en arrastrar, UserControllableLT, tiene una configuración que es muy similar a la nuestra. Como se ve en la Fig. 1, esta manipulación basada en puntos es independiente de las categorías de objetos y brinda a los usuarios control sobre varias propiedades espaciales. El tema tratado en este estudio tiene dos nuevas dificultades con respecto a aquél: Hacen dos cosas: 1) tienen en cuenta el manejo de muchos puntos, que su técnica lucha por lograr, y 2) exigen que los puntos del mango lleguen precisamente al puntos de destino, que su enfoque no puede hacer. Demostrarán en experimentos que la manipulación de varios puntos con un control de posición preciso permite una alteración de la imagen mucho más compleja y precisa.

Investigadores del Instituto Max Planck de Informática, MIT CSAIL y Google AR/VR sugieren DragGAN, que maneja dos subproblemas, que incluyen 1) supervisar los puntos de control para moverse hacia los objetivos y 2) rastrear los puntos de control para que sus ubicaciones sean conocido en cada paso de edición para permitir dicha manipulación interactiva basada en puntos. Su método se basa en la observación fundamental de que el espacio de características de una GAN tiene suficiente poder de discriminación para admitir la supervisión de movimiento y el seguimiento preciso de puntos. En particular, una pérdida de parche de función de cambio que optimiza el código latente proporciona supervisión de movimiento. Luego, el seguimiento de puntos se lleva a cabo utilizando la búsqueda de vecinos más cercanos en el espacio de características, ya que cada paso de optimización hace que los puntos de control se acerquen a los objetivos.

🔥 Recomendado:  ¿Qué es una solicitud de oferta?

Este procedimiento de optimización se repite hasta que los puntos de control alcanzan los objetivos. DragGAN permite a los usuarios dibujar una región de interés para lograr una edición específica del área. DragGAN logra una manipulación eficiente, generalmente solo requiere unos segundos en una sola GPU RTX 3090 porque no depende de ninguna red diferente como RAFT. Esto permite sesiones de edición interactivas en tiempo real donde los usuarios recorren rápidamente varios diseños para producir los resultados deseados. En varios conjuntos de datos, incluidos los que involucran animales (leones, perros, gatos y caballos), personas (cara y cuerpo completo), automóviles y paisajes, examinan a fondo DragGAN.

Su método transfiere con éxito los puntos de manejo definidos por el usuario a los puntos de destino, como se ve en la Fig. 1, lo que da como resultado varios efectos de manipulación en varios tipos de objetos. Su deformación de forma se lleva a cabo en la variedad de imágenes aprendidas de una GAN, que tiende a obedecer las estructuras subyacentes del objeto, en contraste con las metodologías de deformación de forma convencionales que simplemente se aplican a la deformación. Pueden deformarse de acuerdo con la rigidez del objeto, como la flexión de la pata de un caballo, y alucinar material oscurecido, como los dientes dentro de la boca de un león. Además, proporcionan una GUI que permite a las personas interactuar con la alteración haciendo clic en la imagen.

El análisis comparativo, tanto cualitativo como cuantitativo, respalda la superioridad de su enfoque sobre UserControllableLT. Además, su técnica de seguimiento de puntos basada en GAN supera a otras estrategias de seguimiento de puntos como RAFT y PIP para fotogramas generados por GAN. Además, su método funciona bien como una potente herramienta para la modificación de imágenes reales cuando se combina con técnicas de inversión de GAN.