La última investigación de inteligencia artificial (IA) de NVIDIA muestra cómo animar retratos usando voz y una sola imagen

Estás leyendo la publicación: La última investigación de inteligencia artificial (IA) de NVIDIA muestra cómo animar retratos usando voz y una sola imagen

La Inteligencia Artificial (IA) ha sido un tema de creciente importancia en los últimos años. Los avances tecnológicos han hecho posible resolver tareas que antes se consideraban intratables. Como resultado, la IA se utiliza cada vez más para automatizar la toma de decisiones en una amplia gama de dominios. Una de estas tareas es animando retratos, que implica la generación automática de animaciones realistas a partir de retratos individuales.

Dada la complejidad de la tarea, animando un retrato es un problema abierto en el campo de la visión artificial. Los trabajos recientes explotan las señales del habla para impulsar el proceso de animación. Estos enfoques intentan aprender cómo mapear el discurso de entrada a las representaciones faciales. Un video generado ideal debe tener una buena sincronización de labios con el audio, expresiones faciales naturales y movimientos de la cabeza, y alta calidad de cuadro.

Las técnicas de vanguardia en este campo se basan en arquitecturas de redes neuronales profundas de extremo a extremo que consisten en redes de preprocesamiento, que se utilizan para convertir la secuencia de audio de entrada en tokens utilizables, y una emoción aprendida incrustada para mapear estos fichas en las poses correspondientes. Algunos trabajos se enfocan en animar vértices 3D de un modelo de rostro. Sin embargo, estos métodos requieren datos de entrenamiento especiales, como modelos faciales en 3D, que pueden no estar disponibles para muchas aplicaciones. Otros enfoques funcionan en caras 2D y generan movimientos de labios realistas de acuerdo con las señales de audio de entrada. A pesar del movimiento de los labios, sus resultados carecen de realismo cuando se usan con una sola imagen de entrada, ya que el resto de la cara permanece inmóvil.

🔥 Recomendado:  Cómo utilizar Google Ad Manager para su estrategia de marketing

El objetivo del método presentado, denominado ESPACIOxes usar imágenes únicas en 2D de una manera inteligente para superar las limitaciones de los enfoques de vanguardia mencionados y obtener resultados realistas.

La arquitectura del método propuesto se muestra en la siguiente figura.

ESPACIOx toma un clip de voz de entrada y una imagen de rostro (con una etiqueta de emoción opcional) y produce un video de salida. Combina los beneficios de los trabajos relacionados mediante el uso de un marco de predicción de tres etapas.

Primero, dada una imagen de entrada, se extraen los puntos de referencia faciales normalizados (Speech2Landmarks en la figura anterior). La red neuronal utiliza los puntos de referencia calculados para predecir sus movimientos por cuadro en función del discurso de entrada y la etiqueta de emoción. El discurso de entrada no se alimenta directamente al predictor de puntos de referencia. Se extraen 40 coeficientes cepstrales de frecuencia Mel (MFCC) utilizando un tamaño de ventana FFT (Fast Fourier Transform) de 1024 muestras a 30 fps (para alinear las funciones de audio con los cuadros de video).

En segundo lugar, los puntos de referencia faciales posados ​​por cuadro se convierten en puntos clave latentes (Landmarks2Latents en la figura anterior).

Por último, dada la imagen de entrada y los puntos clave latentes por cuadro predichos en el paso anterior, face-vid2vid, un modelo de animación facial basado en imágenes previamente entrenado, genera un video animado con cuadros de 512 × 512 px.

La descomposición propuesta tiene múltiples ventajas. En primer lugar, permite un control detallado de las expresiones faciales de salida (como el parpadeo de los ojos o una pose especial de la cabeza). Además, los puntos clave latentes se pueden modular con etiquetas de emoción para cambiar la intensidad de la expresión o controlar la dirección de la mirada. Al aprovechar un generador de rostros previamente capacitado, los costos de capacitación se reducen sustancialmente.

🔥 Recomendado:  Cómo ganar dinero usando ChatGPT y TikTok

Pasando a la parte de experimentos, ESPACIOx ha sido entrenado en tres conjuntos de datos diferentes (VoxCeleb2, RAVDESS y MEAD) y comparado con trabajos anteriores sobre animación impulsada por el habla. Las métricas utilizadas para la comparación son (i) la calidad de la sincronización de labios, (ii) la precisión de los hitos, (iii) el fotorrealismo (puntuación FID) y (iv) la evaluación humana.

Según los resultados del artículo, ESPACIOx logra la FID más baja y la distancia de punto de referencia normalizada en comparación con los otros enfoques. Estos resultados implican que ESPACIOx produce la mejor calidad de imagen y obtiene la mayor precisión en la estimación de puntos de referencia. A continuación se informan algunos de los resultados.

A diferencia de ESPACIOx, los métodos anteriores sufren de calidad degradada o fallan por poses arbitrarias. Además, SPACEx también puede generar detalles faltantes, como dientes, mientras que otros métodos fallan o introducen artefactos.

Este fue un resumen de ESPACIOx, un novedoso método integral basado en voz para animar retratos. Puede encontrar información adicional en los enlaces a continuación si desea obtener más información al respecto.