La última investigación de visión artificial de Cornell y Adobe propone un método de inteligencia artificial (IA) para transferir las características artísticas de una imagen de estilo arbitrario…

Estás leyendo la publicación: La última investigación de visión artificial de Cornell y Adobe propone un método de inteligencia artificial (IA) para transferir las características artísticas de una imagen de estilo arbitrario…

El arte es una disciplina fascinante pero extremadamente compleja. De hecho, la creación de imágenes artísticas a menudo no solo es un problema que requiere mucho tiempo, sino que también requiere una gran cantidad de experiencia. Si este problema es válido para las obras de arte en 2D, imagine extenderlo a dimensiones más allá del plano de la imagen, como el tiempo (en contenido animado) o el espacio en 3D (con esculturas o entornos virtuales). Esto introduce nuevas limitaciones y desafíos, que se abordan en este documento.

Los resultados anteriores relacionados con la estilización 2D se centran en los contenidos de video divididos cuadro por cuadro. El resultado es que los cuadros individuales generados logran una estilización de alta calidad, pero a menudo conducen a artefactos parpadeantes en el video generado. Esto se debe a la falta de coherencia temporal de los fotogramas producidos. Además, no investigan el entorno 3D, lo que aumentaría la complejidad de la tarea. Otros trabajos que se centran en la estilización 3D sufren reconstrucciones geométricamente inexactas de mallas de nubes de puntos o triángulos y la falta de detalles de estilo. La razón radica en las diferentes propiedades geométricas de la malla inicial y la malla producida, ya que el estilo se aplica después de una transformación lineal.

El método propuesto, denominado Artistic Radiance Fields (ARF), puede transferir las características artísticas de una sola imagen 2D a una escena 3D del mundo real, lo que lleva a representaciones de vistas novedosas artísticas que son fieles a la imagen de estilo de entrada (Fig. 1).

🔥 Recomendado:  25 cosas emocionantes y divertidas para hacer por la noche cerca de mí
Fuente: https://arxiv.org/pdf/2206.06360.pdf

Para este propósito, los investigadores explotaron un campo de radiación fotorrealista reconstruido a partir de múltiples imágenes de escenas del mundo real en un nuevo campo de radiación estilizado que admite representaciones estilizadas de alta calidad desde un punto de vista novedoso. Los resultados se muestran en la figura 1.

Como ejemplo, dado en la entrada un conjunto de imágenes del mundo real de una excavadora y una imagen del famoso Van Gogh “Noche estrellada” cuadro como “estilo” que se le aplica, el resultado es una excavadora colorida con una textura suave que se asemeja a la pintura.

La canalización ARF se presenta en la siguiente figura (Fig. 2).

Fuente: https://arxiv.org/pdf/2206.06360.pdf

El punto clave de esta arquitectura es el acoplamiento de la pérdida de coincidencia de características del vecino más cercano (NNFM) propuesta y la transferencia de color.

El NNFM implica la comparación entre los mapas de características de las imágenes renderizadas y de estilo, extraídos mediante la notoria red neuronal convolucional (CNN) VGG-16. De esta manera, las funciones se pueden utilizar para guiar la transferencia de detalles visuales complejos de alta frecuencia de manera consistente a través de múltiples puntos de vista.

La transferencia de color es, en cambio, una técnica utilizada para evitar una discrepancia de color notable entre las vistas sintetizadas y la imagen de estilo. Implica una transformación lineal de los píxeles que forman las imágenes de entrada para que coincida con la media y la covarianza de los píxeles en la imagen de estilo.

Además, la arquitectura emplea un método de propagación hacia atrás diferido, lo que permite el cálculo de pérdidas en imágenes de resolución completa con carga reducida en la GPU. El primer paso es la representación de la imagen a máxima resolución y el cálculo de la pérdida de imagen y el degradado con respecto a los colores de los píxeles, lo que produce una imagen de degradado almacenada en caché. Luego, estos gradientes de caché se propagan hacia atrás en forma de parche para el proceso de acumulación.

🔥 Recomendado:  ChatGPT aprende a controlar drones y robots mientras reflexiona sobre la IA de última generación

El enfoque, ARF, presentado en este documento trae varias ventajas. En primer lugar, conduce a impresionantes creaciones de imágenes estilizadas casi sin artefactos. En segundo lugar, las imágenes estilizadas se pueden producir a partir de vistas novedosas con solo unas pocas imágenes de entrada, lo que permite reconstrucciones artísticas en 3D. Por último, al emplear el método de propagación hacia atrás diferida, la arquitectura reduce significativamente el consumo de memoria de la GPU.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘ARF: Campos de Resplandor Artístico‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, enlace github y proyecto.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools