Conozca MetaPortrait: un marco de generación de cabezas parlantes que preserva la identidad

Estás leyendo la publicación: Conozca MetaPortrait: un marco de generación de cabezas parlantes que preserva la identidad

La informática ha entrado recientemente en una nueva era en la que la tecnología de inteligencia artificial (IA) se puede utilizar para crear imágenes detalladas y realistas. Se ha producido una gran mejora en el campo de la generación multimedia (por ejemplo, generación de texto a texto, de texto a imagen, de imagen a imagen e de imagen a texto). Gracias al lanzamiento exitoso de muchos modelos generativos recientes como Stable Diffusion y Dall-E (texto a imagen) o ChatGPT (texto a texto) de OpenAI, estas tecnologías están mejorando rápidamente y capturando los intereses de las personas. Además de la generación mencionada anteriormente, estos modelos se han desarrollado para muchos objetivos diferentes. Otra aplicación importante es la llamada generación de cabezas parlantes.

Para quien no lo conozca, la generación de cabeza parlante representa la tarea de generar una cara parlante a partir de un conjunto de imágenes de una persona.

La realidad virtual, el chat en vivo cara a cara y los avatares virtuales en juegos y medios son solo algunos de los lugares donde las cabezas parlantes han encontrado un uso significativo. Los avances recientes en los enfoques de representación neuronal han superado los logrados con costosos sensores de conducción y sofisticados modelos humanos en 3D. A pesar del creciente realismo y la mayor resolución de renderizado que logran estos trabajos, la preservación de la identidad sigue siendo difícil de lograr ya que el sistema visual humano es muy sensible al más mínimo cambio en la forma del rostro de una persona. El trabajo presentado en este artículo intenta crear una cara parlante que parezca genuina y pueda moverse de acuerdo con el movimiento del conductor utilizando solo una imagen de fuente única (una toma).

🔥 Recomendado:  Cómo crear un kit de medios para tu blog

La idea es desarrollar un marco de generación de cabezas parlantes que preserve la identificación, que avance los métodos anteriores en dos aspectos. En primer lugar, en lugar de interpolar a partir de un flujo disperso, afirmamos que los puntos de referencia densos son cruciales para lograr campos de flujo precisos que tengan en cuenta la geometría. En segundo lugar, inspirados en los métodos de intercambio de caras, fusionamos de forma adaptativa la fuente

identidad durante la síntesis para que la red conserve mejor las características clave del retrato de la imagen.

La imagen que se muestra a continuación muestra la arquitectura general del marco.

La entrada al modelo es dual. En primer lugar, se utilizará una imagen de una persona como imagen de origen y se solicitará una secuencia de fotogramas de vídeo de conducción para guiar la generación de vídeo. De hecho, se le pide al modelo que genere un video de salida con los movimientos derivados del video de conducción mientras mantiene la identidad de la imagen de origen.

El primer paso es la detección de puntos de referencia. Los autores afirman que la predicción de puntos de referencia densos es la clave para una estimación del campo de deformación consciente de la geometría, utilizada en etapas posteriores para capturar y guiar el movimiento de la cabeza. Para ello, se ha entrenado un modelo de predicción (sobre caras sintéticas) para facilitar el proceso de adquisición de hitos. Un enfoque simple para procesar estos puntos de referencia sería concatenarlos por canales. Sin embargo, esta operación es computacionalmente exigente, dados los muchos canales involucrados. Por lo tanto, en el documento se ha presentado una estrategia diferente. Los puntos de referencia están conectados a través de una línea y diferenciados a través de colores.

🔥 Recomendado:  AI impulsará las estafas de próxima generación, dice Wozniak

El segundo paso es la generación del campo warping. Para esta tarea, los puntos de referencia de las imágenes fuente y de conducción se concatenan con la imagen fuente. Además, la predicción del campo warping está condicionada a un vector latente producido a partir de las imágenes concatenadas.

El tercer paso implica el refinamiento que preserva la identidad. Si la imagen de origen se distorsionara directamente con el campo de flujo predicho, inevitablemente surgirían artefactos y es probable que no se conserve la identidad. Por esta razón, los autores introducen una red de refinamiento que conserva la identidad que toma la predicción del campo de deformación, la imagen de origen y una incrustación de identidad de la imagen (extraída a través de un modelo de reconocimiento facial previamente entrenado) para generar el marco controlado semánticamente conservado. .

El último paso consiste en aumentar la muestra de los fotogramas. Hacer esto de forma ingenua sin tener en cuenta la coherencia temporal entre fotogramas produciría artefactos en el vídeo de salida. Por lo tanto, la solución propuesta incluye una red de superresolución temporal para tener en cuenta las relaciones temporales entre fotogramas adyacentes. Específicamente, aprovecha un preentrenado

Modelo StyleGAN y convolución 3D (en el dominio espacio-temporal), implementado en un módulo U-Net. El vídeo de salida a través de superresolución tendrá una dimensión de 512×512.

La siguiente imagen representa la comparación entre la arquitectura propuesta y los enfoques más avanzados.

Este fue el resumen de MetaPortrait, un marco novedoso para abordar el problema de la generación de cabezas parlantes. Si estás interesado, puedes encontrar más información en los siguientes enlaces.