Las últimas investigaciones sobre inteligencia artificial (IA) aportan un método completamente nuevo llamado ‘ANGIE’ que registra eficientemente patrones de gestos de co-habla reutilizables y movimientos rítmicos detallados

Estás leyendo la publicación: Las últimas investigaciones sobre inteligencia artificial (IA) aportan un método completamente nuevo llamado ‘ANGIE’ que registra eficientemente patrones de gestos de co-habla reutilizables y movimientos rítmicos detallados

Los seres humanos suelen utilizar gestos de co-habla para expresar sus pensamientos además de los canales hablados a lo largo de la conversación diaria. Estas señales no verbales mejoran la comprensión del habla y establecen la credibilidad del comunicador. Como resultado, enseñar habilidades conversacionales al robot social es un primer paso esencial para permitir el contacto humano-máquina. Para lograr esto, los investigadores trabajan en la generación de gestos de co-habla, sintetizando secuencias de gestos humanos coherentes con el audio como representaciones humanas estructurales. La información sobre la apariencia del hablante objetivo, que es esencial para la percepción humana, está ausente de dicha representación. Se ha demostrado que la creación de sujetos del mundo real en el dominio de la imagen es muy deseable en la síntesis de cabeza parlante impulsada por audio.

Para hacer esto, investigan el problema de generar videos de gestos de co-voz que son controlados por audio, es decir, usando un marco unificado para crear secuencias de imágenes del hablante que están controladas por audio hablado (ilustrado en la Fig. 1). Los pares de gestos de voz y las reglas de conexión deben definirse de antemano en los enfoques convencionales para proporcionar resultados coherentes. A medida que avanza el aprendizaje profundo, las redes neuronales se utilizan para aprender el mapeo basado en datos de características acústicas registradas en esqueletos humanos. En particular, un grupo de métodos utiliza conjuntos de datos MoCap a pequeña escala en un entorno de co-habla, lo que da como resultado modelos particulares con capacidades y solidez limitadas. Otra familia de enfoques crea un gran corpus de entrenamiento mediante el uso de estimadores de pose listos para usar para etiquetar grandes películas en línea como verdad pseudo-terrestre para capturar correlaciones más genéricas del habla y los gestos.

🔥 Recomendado:  Nuevas extensiones de Magento 2 & Actualizaciones [June 2022]

Los resultados resultantes, sin embargo, no son naturales porque las anotaciones de pose erróneas provocan la acumulación de errores en la fase de entrenamiento. Además, el problema de la creación de videos de gestos de voz conjunta debe abordarse en la mayoría de los esfuerzos anteriores. Solo unos pocos trabajos usan generadores de pose a imagen para entrenar en las fotos de la persona objetivo cuando se anima en el dominio de la imagen como un paso de posprocesamiento separado. Aún debe determinarse cómo crear un marco unificado para generar secuencias de imágenes de locutores basadas en grabaciones vocales. Destacan dos hallazgos de experimentos recientes que son cruciales para comprender cómo aprender el mapeo de audio a video de gestos de voz conjunta:

1) La información de la región del cuerpo humano articulado se eliminaría mediante estructuras anteriores humanas creadas manualmente, como esqueletos 2D/3D. De manera similar a la transformación afín local en la animación de imágenes, dicha representación de movimiento de orden cero no puede formular movimiento de primer orden. Además, el aprendizaje de audio a gestos multimodal debe mejorarse debido a la inexactitud en el etiquetado estructural anterior.

2) Los gestos de co-habla se pueden dividir en patrones de movimiento comunes y dinámicas rítmicas, donde el primero corresponde a plantillas de movimiento a gran escala (p. ej., subir y bajar las manos periódicamente), y el segundo sirve como un refinamiento para complementar movimientos prosódicos delicados. y sincronizar con audio hablado (p. ej., parpadeos de los dedos). Están motivados por las observaciones anteriores y sugieren un marco novedoso llamado Audio-driveN Gesture vIdeo gEneration (ANGIE) para producir video de gestos de co-habla.

🔥 Recomendado:  Un momento decisivo: Crimson Hexagon se une a Brandwatch

Los residuos de movimiento pueden refinar aún más los detalles rítmicos delicados para obtener resultados de grano fino. En particular, se han desarrollado los módulos VQ-Motion Extractor y Co-Speech GPT. Usan una representación de movimiento no supervisada en VQ-Motion Extractor para mostrar el cuerpo humano articulado y los movimientos de primer orden. A partir de la representación de movimiento no supervisada, los libros de códigos se crean para cuantificar los patrones de gestos de co-habla comunes reutilizables. Proporcionan un enfoque de cuantificación basado en la descomposición de Cholesky para aliviar la restricción del componente de movimiento y garantizar la validez de los patrones de gestos. El hallazgo fundamental es que los patrones típicos de gestos de co-habla pueden resumirse desde la representación de movimiento hasta libros de códigos cuantificados.

El patrón de movimiento irrelevante para la posición se extrae como el objetivo de cuantificación final para representar el movimiento relativo. Como resultado, los libros de códigos cuantificados proporcionan automáticamente información detallada sobre patrones de gestos populares. Han hecho tres contribuciones importantes:

1) Se explora el difícil problema de la creación de videos de gestos de co-voz impulsados ​​por audio. En Co-Spoken GPT, emplean una estructura similar a GPT para predecir patrones de movimiento discretos a partir de audio de voz utilizando la secuencia de código de movimiento cuantificado. Se requiere una red de refinamiento de movimiento además de elementos rítmicos menores para lograr resultados de granularidad fina. Son los primeros, hasta donde saben, en desarrollar un gesto de co-habla en el dominio de la imagen utilizando un marco unificado sin haber utilizado previamente un cuerpo estructural humano.

🔥 Recomendado:  Cómo ganar dinero sin trabajo: 11 maneras en 2023

2) Sugieren que el Co-Speech GPT mejora los detalles finos del movimiento rítmico y el VQ-Motion Extractor para cuantificar la representación del movimiento en patrones de gestos comunes. Naturalmente, los datos de patrones de movimiento reutilizables están presentes en los libros de códigos.

3) Numerosas pruebas muestran que el marco sugerido, ANGIE, produce resultados de producción de video de gestos de co-habla que son vívidos y realistas. El código se publicará pronto.