Estás leyendo la publicación: Edición del espacio latente de una GAN con ‘Blobs’
Una nueva investigación de UC Berkeley y Adobe ofrece una forma de editar directamente el contenido hiperreal que puede ser creado por una Red Adversaria Generativa (GAN), pero que generalmente no puede controlarse, animarse o manipularse libremente de una manera familiar para Photoshop. usuarios y practicantes de CGI.
Noble BlobGANel método implica la creación de una cuadrícula de “manchas”: construcciones matemáticas que se asignan directamente al contenido dentro del espacio latente de la GAN.
Al mover los blobs, puede mover los ‘objetos’ en una representación de escena, de una manera intuitiva que está más cerca de los métodos CGI y CAD que muchos de los intentos actuales de mapear y controlar el espacio latente de la GAN:
Dado que las manchas corresponden a “objetos” en la escena trazada en el espacio latente de la GAN, todos los objetos se desenredan a priorisiendo posible modificarlos individualmente:
Al igual que con cualquier objeto en el software de edición de fotografías (o incluso de edición de texto), una mancha se puede duplicar y manipular posteriormente:
BlobGAN también puede analizar imágenes novedosas seleccionadas por el usuario en su espacio latente:
Se pueden ver más resultados aquíy en el anexo Video de Youtube (incrustado al final de este artículo). También hay un Colab interactivo. manifestación*, y un GitHub repositorio**.
Este tipo de instrumental y alcance puede parecer ingenuo en la era posterior a Photoshop, y los paquetes de software paramétrico como Cinema4D y Blender han permitido a los usuarios crear y personalizar mundos 3D durante décadas; pero representa un enfoque prometedor para domar las excentricidades y la naturaleza arcana del espacio latente en una Red Adversaria Generativa, mediante el uso de entidades proxy que se asignan a códigos latentes.
Los autores afirman:
“En un desafiante conjunto de datos de múltiples categorías de escenas interiores, BlobGAN supera a Style-GAN2 en calidad de imagen medida por FID”.
El papel se titula BlobGAN: representaciones de escenas desenredadas espacialmentey está escrito por dos investigadores de UC Berkeley, junto con tres de Adobe Research.
Intermediario
BlobGAN trae un nuevo paradigma a la síntesis de imágenes GAN. Los enfoques anteriores para abordar entidades discretas en el espacio latente, señala el nuevo documento, han sido “de arriba hacia abajo” o “de abajo hacia arriba”.
Un método de arriba hacia abajo en un GAN o clasificador de imágenes trata las imágenes de escenas como clases, como “dormitorio”, “iglesia”, “rostro”, etc. Este tipo de emparejamiento de texto/imagen impulsa una nueva generación de marcos de síntesis de imágenes multimodales. , como el reciente DALL-E 2 de OpenAI.
En cambio, los enfoques ascendentes asignan cada píxel de una imagen a una clase, etiqueta o categoría. Dichos enfoques utilizan diversas técnicas, aunque la segmentación semántica es una línea de investigación popular en la actualidad.
Los autores comentan:
‘Ambos caminos parecen insatisfactorios porque ninguno puede proporcionar formas fáciles de razonar sobre partes de la escena como entidades. Las partes de la escena se integran en un solo vector latente entrelazado (de arriba hacia abajo) o deben agruparse a partir de etiquetas de píxeles individuales (de abajo hacia arriba).
Más bien, BlobGAN ofrece una representación de nivel medio no supervisadao marco proxy para modelos generativos.
Los blobs gaussianos (es decir, basados en ruido) están ordenados en profundidad y representan un cuello de botella en la arquitectura que asigna un mapeo a cada entidad, resolviendo el mayor obstáculo que existe para la manipulación de contenido GAN: el desenredo (también un problema para las arquitecturas basadas en codificadores automáticos). ). El ‘mapa de blobs’ resultante se usa para manipular el decodificador de BlobGAN.
Los autores notan con cierta sorpresa que el sistema aprende a descomponer escenas en diseños y entidades a través de un discriminador listo para usar que no usa etiquetas explícitas.
Arquitectura y Datos
Las entidades en el mapa de blobs se convierten en imágenes a través de un StyleGAN2 revisado derivado reden un enfoque que se inspira en investigaciones anteriores de NVIDIA.
StyleGAN 2 se modifica en BlobGAN para aceptar entradas del mapa de blobs en lugar de un solo vector global, como suele ser el caso.
Por analogía, en lugar de crear un edificio vasto y complejo (el espacio latente) de una vez, y luego tener que explorar sus interminables caminos, BlobGAN envía los bloques de componentes al principio y siempre sabe dónde están. Este desenredo de contenido y ubicación es la principal innovación de la obra.
* No funcional al momento de escribir
** Código aún no publicado en el momento de la redacción
Publicado por primera vez el 8 de mayo de 2022.