Estás leyendo la publicación: Investigadores de UC Berkeley y Amazon presentan un método de IA no supervisado para sintetizar fotografías realistas a partir de bocetos de escenas
Dibujar es un medio natural de representar señales visuales. Con unos pocos trazos ligeros, los humanos podían entender y visualizar una foto de un boceto. Además, a diferencia de las imágenes, que son ricas en color y textura, los dibujos se pueden cambiar fácilmente ya que se pueden cambiar los trazos. Los investigadores quieren crear imágenes que mantengan la estructura de los dibujos de escenas mientras ofrecen la estética visual de bajo nivel de las fotos de referencia. A diferencia de investigaciones anteriores que emplearon bocetos a nivel de objeto de categoría para sintetizar fotografías, su objetivo de usar bocetos a nivel de escena como entrada tiene obstáculos adicionales por múltiples razones.
La primera es la falta de datos. Debido a la complejidad del bosquejo de escenas, su asignación no tiene datos de entrenamiento. No solo hay una escasez de dibujos de escenas, sino que también hay pocos conjuntos de datos de imágenes de bocetos de escenas coincidentes, lo que dificulta el aprendizaje supervisado de una modalidad a otra. El segundo es la complejidad de los dibujos de escenas. Un boceto de escena a menudo comprende muchos elementos de varias categorías semánticas, con oclusiones y arreglos espaciales sofisticados. Aislar cosas, sintetizar imágenes de objetos y fusionarlos es ineficaz y difícil de generalizar. Por ejemplo, reconocer cosas a partir de dibujos es difícil debido a la escasa estructura. Por ejemplo, uno puede encontrar cosas que no encajan en las categorías vistas, y la composición puede hacer que la toma compuesta no sea convincente.
Sugieren que estas dificultades se aborden mediante 1) un módulo de estandarización y 2) aprendizaje de representación desenredado. Ofrecen un módulo de estandarización que convierte las fotos de entrada en un dominio estandarizado, mapas de bordes, para compensar la ausencia de datos porque se asemejan a simples bocetos. Los mapas de bordes podrían denominarse bocetos sintéticos. Con la estandarización, los conjuntos de datos de imágenes a gran escala ampliamente disponibles pueden convertirse en mapas de borde y utilizarse para capacitación. Además, los dibujos de estilos individuales variados se estandarizan durante la inferencia, lo que reduce la brecha entre el entrenamiento y la inferencia.
Aprenden contenido holístico desenredado y representaciones de estilo de bajo nivel a partir de imágenes y dibujos (sintéticos) para la complejidad de los bocetos de escenas al alentar solo las representaciones de contenido de combinaciones de fotos y bocetos para que sean comparables. Por definición, las representaciones de contenido encapsulan las estructuras semánticas y geométricas holísticas de un dibujo o una fotografía. El color y la textura son ejemplos de información visual de bajo nivel codificada por representaciones de estilo. Un dibujo puede mostrar un contenido similar al de una fotografía, excepto que los bocetos carecen de información sobre el color y la textura. Al factorizar colores y texturas, el modelo podía aprender de inmediato las estructuras de la escena a partir de fotografías a gran escala y transmitir la información a los dibujos.
También se puede decodificar una foto realista combinando la representación del contenido de un dibujo con la representación del estilo de una foto de referencia. La foto decodificada debe tener el mismo contenido que el dibujo y el estilo de la foto de referencia. La mecánica básica del bosquejo de escena guiado por referencia propuesto para la técnica de síntesis de imagen es la siguiente. Cabe señalar que las representaciones desenredadas ya se han examinado para las imágenes, extendiendo el enfoque a los dibujos. Como se muestra en la figura a continuación, su metodología puede admitir la síntesis de imágenes a partir de bocetos de escenas y la modificación de fotografías controlada al permitir a los usuarios ajustar directamente los trazos de un dibujo coincidente.
Dado un boceto y una foto de referencia de estilo, el método puede transferir estilos visuales de bajo nivel de la referencia mientras conserva la estructura de contenido del boceto.
En comparación con la edición de fotografías utilizando mapas de segmentación ofrecidos por estudios anteriores, la técnica es simple y rápida, ya que los trazos son directos y flexibles para ajustar. El módulo de estandarización, en particular, primero convierte una foto en un dibujo. Los usuarios pueden cambiar los trazos del boceto y usar su modelo para recrear una foto recién modificada. Además, el estilo de la foto puede modificarse usando otra imagen de referencia como guía.
La contribución de los investigadores se resume de la siguiente manera:
1) El marco de fotosíntesis presenta un boceto de escena sin supervisión. Presentan un módulo de estandarización que transforma imágenes aleatorias en mapas de bordes estandarizados, lo que permite el uso de muchas fotos genuinas durante el entrenamiento.
2) A diferencia de las técnicas anteriores, su sistema permite una modificación más controlada de la fotosíntesis alterando los dibujos de las escenas.
3) En términos de tecnología, sugieren diseños únicos para la síntesis de escenas de boceto a imagen, como representaciones de contenido compartido para la transferencia de conocimiento de imágenes a dibujos y ajuste fino del modelo con trillizos de boceto-referencia-foto para un mayor rendimiento.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Boceto de escena sin supervisión a fotosíntesis‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools