Investigadores de UC Berkeley y Adobe AI proponen BlobGAN, una nueva representación no supervisada y de nivel medio para la manipulación de escenas insanas

Estás leyendo la publicación: Investigadores de UC Berkeley y Adobe AI proponen BlobGAN, una nueva representación no supervisada y de nivel medio para la manipulación de escenas insanas

Desde el advenimiento de la visión artificial, una de las cuestiones fundamentales de la comunidad investigadora siempre ha sido cómo representar la increíble riqueza del mundo visual. Un concepto que surgió desde el principio es la importancia de una escena en el contexto de la comprensión de los objetos. Supongamos que queremos un clasificador para distinguir entre un sofá y una cama. En ese caso, el contexto de la escena brindará información sobre el entorno (es decir, la habitación es una sala de estar o un dormitorio) que podría ser útil para la clasificación.

Sin embargo, después de años de investigación, las imágenes de escenas todavía se representan principalmente de dos maneras: 1) de arriba hacia abajo, por lo que las clases de escenas se representan con una etiqueta de la misma manera que las clases de objetos, o 2) de abajo hacia abajo. a la moda, con etiquetado semántico de píxeles individuales. El límite principal de estos dos enfoques es que no representan las diferentes partes de una escena como entidades. En el primer caso, los diversos componentes se fusionan en una única etiqueta; en el segundo caso, los elementos individuales son píxeles individuales, no entidades.

Del vídeo de presentación oficial | Fuente: https://arxiv.org/pdf/2205.02837.pdf

Para llenar esta carencia, los investigadores de UC Berkeley y Adobe Research propusieron BlobGAN, una representación de nivel medio no supervisada extremadamente nueva para modelos generativos de escenas. Nivel medio significa que la representación no es por píxel ni por imagen, sino que las entidades en las escenas se modelan con manchas gaussianas ordenadas en profundidad y espaciales. Dado un poco de ruido aleatorio, la red de diseño, un MLP de 8 capas, lo asigna a una colección de parámetros de blobs, que luego se distribuyen en una cuadrícula espacial y se pasan a un decodificador similar a StyleGAN2. El modelo se entrena en un marco de confrontación con un discriminador StyleGAN2 sin modificar.

🔥 Recomendado:  Conozca CancerGPT: un modelo propuesto que utiliza un modelo de lenguaje extenso para predecir sinergias de pares de fármacos en tejidos particulares en un entorno de pocas tomas
Fuente: https://arxiv.org/pdf/2205.02837.pdf

Más específicamente, las manchas se representan como elipses con coordenadas centrales Xescala srelación de aspecto a, y ángulo de rotación θ. Además, cada blob está asociado con dos vectores de características, uno para la estructura y otro para el estilo.

Fuente: https://arxiv.org/pdf/2205.02837.pdf | Del vídeo de presentación oficial

Entonces, la red de diseño mapea el ruido aleatorio a un número fijo de k blobs (la red también puede decidir suprimir un blob imponiendo un parámetro de escala muy bajo), cada uno representado por cuatro parámetros (en realidad cinco, ya que el centro está definido por X y y coordenadas) y dos vectores de características. Luego, todas las elipses definidas por los parámetros se salpican en una cuadrícula con también la dimensión de profundidad y, posteriormente, se componen alfa (para manejar la oclusión y las relaciones) en 2D y se rellenan con la información contenida en los vectores de características. Luego, la imagen se pasa al generador. En el StyleGAN2 original, el generador tomaba como entrada un único arreglo con toda la información extraída, mientras que en este trabajo se modifican las primeras capas para tomar diseño y apariencia por separado. Esta técnica impuso una representación desenredada, junto con el hecho de que los autores agregaron un ruido uniforme a los parámetros de la mancha antes de ingresarlos al generador.

La red definida anteriormente se entrenó con el conjunto de datos de escenas LSUN sin supervisión.

A pesar de no estar supervisada, gracias a la uniformidad espacial de los blobs y la localidad de las circunvoluciones, la red pudo asociar diferentes blobs a diferentes componentes de la escena. Esto se puede ver a partir de los resultados presentados, calculados con k=10 manchas Para una visualización extensa de los resultados, aquí está el página del proyecto con animaciones. Los resultados son asombrosos, como se puede deducir de la siguiente imagen: la manipulación de blobs permite una modificación sustancial y precisa de la imagen generada. Es, por ejemplo, posible vaciar una habitación (incluso si el conjunto de datos no se entrenó con imágenes de habitaciones vacías), agregar, reducir y mover entidades y también cambiar el estilo de los diferentes objetos.

🔥 Recomendado:  Estudio: Financiamiento de startups de IA en la India en 2023
Fuente: https://arxiv.org/pdf/2205.02837.pdf

En conclusión, si los modelos de difusión eclipsaron recientemente a las GAN, este artículo presenta una técnica nueva y disruptiva que controla la escena con una precisión invisible. Además, el entrenamiento es completamente sin supervisión, por lo que no se necesita tiempo para etiquetar las distintas imágenes.

Este artículo está escrito como un artículo resumido por el personal de Marktechpost basado en el documento ‘BlobGAN: representaciones de escenas desenredadas espacialmente‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, github, proyecto.

Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático

Cookies no necesarias para ver el contenido.” data-cli-src=”https://www.youtube.com/embed/KpUv82VsU5k?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=en-US&autohide=2&wmode= transparente” allowfullscreen=”true” style=”border:0;” sandbox=”allow-scripts allow-mismo-origen allow-popups allow-presentation”>

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools