Edición del espacio latente de una GAN con ‘Blobs’

Estás leyendo la publicación: Edición del espacio latente de una GAN con ‘Blobs’

Una nueva investigación de UC Berkeley y Adobe ofrece una forma de editar directamente el contenido hiperreal que puede ser creado por una Red Adversaria Generativa (GAN), pero que generalmente no puede controlarse, animarse o manipularse libremente de una manera familiar para Photoshop. usuarios y practicantes de CGI.

Noble BlobGANel método implica la creación de una cuadrícula de “manchas”: construcciones matemáticas que se asignan directamente al contenido dentro del espacio latente de la GAN.

Al mover los blobs, puede mover los ‘objetos’ en una representación de escena, de una manera intuitiva que está más cerca de los métodos CGI y CAD que muchos de los intentos actuales de mapear y controlar el espacio latente de la GAN:

Manipulación de escenas con BlobGAN: a medida que el usuario mueve las

Manipulación de escenas con BlobGAN: a medida que el usuario mueve las “manchas”, la disposición de los objetos latentes y los estilos en la GAN se modifican correspondientemente. Para obtener más ejemplos, consulte el video que acompaña al documento, incrustado al final de este artículo, o en https://www.youtube.com/watch?v=KpUv82VsU5k

Dado que las manchas corresponden a “objetos” en la escena trazada en el espacio latente de la GAN, todos los objetos se desenredan a priorisiendo posible modificarlos individualmente:

Los objetos se pueden cambiar de tamaño, reducir, clonar y eliminar, entre otras operaciones.

Los objetos se pueden cambiar de tamaño, reducir, clonar y eliminar, entre otras operaciones.

Al igual que con cualquier objeto en el software de edición de fotografías (o incluso de edición de texto), una mancha se puede duplicar y manipular posteriormente:

Los blobs se pueden duplicar en la interfaz, y sus representaciones latentes correspondientes también se 'copiarán y pegarán'.  Fuente: https://dave.ml/blobgan/#results

Los blobs se pueden duplicar en la interfaz, y sus representaciones latentes correspondientes también se ‘copiarán y pegarán’. Fuente: https://dave.ml/blobgan/#results

🔥 Recomendado:  He aquí por qué la gente piensa que GPT-4 podría volverse más tonto con el tiempo

BlobGAN también puede analizar imágenes novedosas seleccionadas por el usuario en su espacio latente:

Con BlobGAN, no tiene que incorporar imágenes que desea manipular directamente en los datos de entrenamiento y luego buscar sus códigos latentes, sino que puede ingresar imágenes seleccionadas a voluntad y manipularlas.  Las fotos que se modifican aquí son entradas de usuario post-facto.  Fuente: https://dave.ml/blobgan/#results

Con BlobGAN, no tiene que incorporar imágenes que desea manipular directamente en los datos de entrenamiento y luego buscar sus códigos latentes, sino que puede ingresar imágenes seleccionadas a voluntad y manipularlas. Las fotos que se modifican aquí son entradas de usuario post-facto. Fuente: https://dave.ml/blobgan/#results

Se pueden ver más resultados aquíy en el anexo Video de Youtube (incrustado al final de este artículo). También hay un Colab interactivo. manifestación*, y un GitHub repositorio**.

Este tipo de instrumental y alcance puede parecer ingenuo en la era posterior a Photoshop, y los paquetes de software paramétrico como Cinema4D y Blender han permitido a los usuarios crear y personalizar mundos 3D durante décadas; pero representa un enfoque prometedor para domar las excentricidades y la naturaleza arcana del espacio latente en una Red Adversaria Generativa, mediante el uso de entidades proxy que se asignan a códigos latentes.

Los autores afirman:

“En un desafiante conjunto de datos de múltiples categorías de escenas interiores, BlobGAN supera a Style-GAN2 en calidad de imagen medida por FID”.

El papel se titula BlobGAN: representaciones de escenas desenredadas espacialmentey está escrito por dos investigadores de UC Berkeley, junto con tres de Adobe Research.

Intermediario

BlobGAN trae un nuevo paradigma a la síntesis de imágenes GAN. Los enfoques anteriores para abordar entidades discretas en el espacio latente, señala el nuevo documento, han sido “de arriba hacia abajo” o “de abajo hacia arriba”.

Un método de arriba hacia abajo en un GAN o clasificador de imágenes trata las imágenes de escenas como clases, como “dormitorio”, “iglesia”, “rostro”, etc. Este tipo de emparejamiento de texto/imagen impulsa una nueva generación de marcos de síntesis de imágenes multimodales. , como el reciente DALL-E 2 de OpenAI.

🔥 Recomendado:  Cómo crear una lista de tareas pendientes en Notion

En cambio, los enfoques ascendentes asignan cada píxel de una imagen a una clase, etiqueta o categoría. Dichos enfoques utilizan diversas técnicas, aunque la segmentación semántica es una línea de investigación popular en la actualidad.

Los autores comentan:

‘Ambos caminos parecen insatisfactorios porque ninguno puede proporcionar formas fáciles de razonar sobre partes de la escena como entidades. Las partes de la escena se integran en un solo vector latente entrelazado (de arriba hacia abajo) o deben agruparse a partir de etiquetas de píxeles individuales (de abajo hacia arriba).

Más bien, BlobGAN ofrece una representación de nivel medio no supervisadao marco proxy para modelos generativos.

La red de diseño asigna entidades 'blob' locales (y controlables) a códigos latentes.  Los círculos de colores en el centro forman un 'mapa de manchas'.  Fuente: https://arxiv.org/pdf/2205.02837.pdf

La red de diseño asigna entidades ‘blob’ locales (y controlables) a códigos latentes. Los círculos de colores en el centro forman un ‘mapa de manchas’. Fuente: https://arxiv.org/pdf/2205.02837.pdf

Los blobs gaussianos (es decir, basados ​​en ruido) están ordenados en profundidad y representan un cuello de botella en la arquitectura que asigna un mapeo a cada entidad, resolviendo el mayor obstáculo que existe para la manipulación de contenido GAN: el desenredo (también un problema para las arquitecturas basadas en codificadores automáticos). ). El ‘mapa de blobs’ resultante se usa para manipular el decodificador de BlobGAN.

Los autores notan con cierta sorpresa que el sistema aprende a descomponer escenas en diseños y entidades a través de un discriminador listo para usar que no usa etiquetas explícitas.

Arquitectura y Datos

Las entidades en el mapa de blobs se convierten en imágenes a través de un StyleGAN2 revisado derivado reden un enfoque que se inspira en investigaciones anteriores de NVIDIA.

Un derivado de StyleGAN 2 revisado de NVIDIA Research.  Algunos de los principios de este trabajo fueron adoptados o adaptados para BlobGAN.  Fuente: https://arxiv.org/pdf/1912.04958.pdf

Un derivado de StyleGAN 2 revisado de NVIDIA Research. Algunos de los principios de este trabajo fueron adoptados o adaptados para BlobGAN. Fuente: https://arxiv.org/pdf/1912.04958.pdf

🔥 Recomendado:  WP Rocket vs W3 Total Cache: ¿Cuál es el mejor complemento de almacenamiento en caché de WordPress en 2023?

StyleGAN 2 se modifica en BlobGAN para aceptar entradas del mapa de blobs en lugar de un solo vector global, como suele ser el caso.

Una serie de manipulaciones posibles gracias a BlobGAN, incluida la 'autocompletación' de una escena de dormitorio y el cambio de tamaño y reubicación de los elementos de la habitación.  En la fila a continuación, vemos el instrumento accesible para el usuario que permite esto: el mapa de blobs.

Una serie de manipulaciones posibles gracias a BlobGAN, incluido el “autocompletado” de la escena de una habitación vacía y el cambio de tamaño y la reubicación de los elementos de la habitación. En la fila a continuación, vemos el instrumento accesible para el usuario que permite esto: el mapa de blobs.

Por analogía, en lugar de crear un edificio vasto y complejo (el espacio latente) de una vez, y luego tener que explorar sus interminables caminos, BlobGAN envía los bloques de componentes al principio y siempre sabe dónde están. Este desenredo de contenido y ubicación es la principal innovación de la obra.

* No funcional al momento de escribir
** Código aún no publicado en el momento de la redacción

Publicado por primera vez el 8 de mayo de 2022.