Estás leyendo la publicación: Esta investigación de inteligencia artificial (IA) mejora tanto la sincronización de labios como la calidad de representación de la generación de caras parlantes al aliviar el desafío de mapeo de uno a muchos con recuerdos
Usando la creación de rostros parlantes, es posible crear retratos de video realistas de un individuo objetivo que se correspondan con el contenido del discurso. Dado que proporciona el material visual de la persona interesada además de la voz, es muy prometedor en aplicaciones como avatares virtuales, conferencias en línea y películas animadas. Las técnicas más utilizadas para tratar con la generación de caras parlantes impulsadas por audio utilizan un marco de dos etapas. Primero, se predice una representación intermedia a partir del audio de entrada; luego, se usa un renderizador para sintetizar los retratos de video según la representación esperada (p. ej., puntos de referencia 2D, coeficientes de forma combinada de modelos faciales 3D, etc.). Al obtener movimientos naturales de la cabeza, aumentar la calidad de la sincronización de labios, crear una expresión emocional, etc. A lo largo de este camino, se ha logrado un gran progreso hacia la mejora del realismo general del retrato en video.
Sin embargo, debe tenerse en cuenta que la creación de caras parlantes es intrínsecamente un problema de mapeo de uno a muchos. Por el contrario, los algoritmos mencionados anteriormente están sesgados hacia el aprendizaje de un mapeo determinista del audio proporcionado a un video. Esto indica que hay varias representaciones visuales posibles del individuo objetivo dado un clip de audio de entrada debido a la variedad de contextos de fonemas, estados de ánimo y condiciones de iluminación, entre otros factores. Esto hace que sea más difícil proporcionar resultados visuales realistas cuando se aprende el mapeo determinista, ya que se introduce ambigüedad durante el entrenamiento. El marco de dos etapas, que divide el desafío del mapeo de uno a muchos en dos subproblemas, podría ayudar a facilitar este mapeo de uno a muchos (es decir, un problema de audio a expresión y un problema de representación neuronal) . Aunque es eficiente, cada una de estas dos fases aún está diseñada para pronosticar los datos que la entrada omitió, lo que dificulta la predicción. Como ilustración, el modelo de audio a expresión aprende a crear una expresión que corresponde semánticamente al audio de entrada. Aún así, ignora la semántica de alto nivel, como hábitos, actitudes, etc. En comparación con esto, el modelo de representación neuronal pierde información a nivel de píxeles, como arrugas y sombras, ya que crea apariencias visuales basadas en la predicción de emociones. Este estudio sugiere MemFace, que crea una memoria implícita y una memoria explícita que siguen el sentido de las dos fases de manera diferente, para complementar la información que falta con memorias para facilitar aún más el problema del mapeo de uno a muchos.
Más precisamente, la memoria explícita se construye de forma no paramétrica y personalizada para cada individuo objetivo para complementar las características visuales. Por el contrario, la memoria implícita se optimiza conjuntamente con el modelo de audio a expresión para completar la información alineada semánticamente. Por lo tanto, su modelo de audio a expresión usa la función de audio extraído como consulta para atender la memoria implícita en lugar de usar directamente el audio de entrada para predecir la expresión. La característica auditiva se combina con el resultado de la atención, que anteriormente funcionaba como datos alineados semánticamente, para proporcionar un resultado de expresión. La brecha semántica entre el audio de entrada y la expresión de salida se reduce al permitir el entrenamiento de extremo a extremo, lo que alienta a la memoria implícita a asociar semántica de alto nivel en el espacio común entre el audio y la expresión.
El modelo de representación neuronal sintetiza las apariencias visuales en función de las formas de la boca determinadas a partir de estimaciones de expresión después de que se haya obtenido la expresión. Primero construyen la memoria explícita para cada individuo utilizando los vértices de los modelos faciales en 3D y los parches de imágenes que los acompañan como claves y valores, respectivamente, para complementar la información a nivel de píxeles entre ellos. El parche de imagen que lo acompaña se devuelve como información a nivel de píxel al modelo de representación neuronal para cada frase de entrada. Sus vértices correspondientes se utilizan como consulta para obtener claves similares en la memoria explícita.
Intuitivamente, la memoria explícita facilita el proceso de generación al permitir que el modelo correlacione selectivamente la información requerida por la expresión sin generarla. Las pruebas exhaustivas en varios conjuntos de datos de uso común (como Obama y HDTF) muestran que el MemFace propuesto proporciona sincronización de labios y calidad de renderizado de vanguardia, superando de manera consistente y considerablemente a todos los enfoques básicos en varios contextos. Por ejemplo, su MemFace mejora la puntuación subjetiva del conjunto de datos de Obama en un 37,52 % en comparación con la línea de base. Las muestras de trabajo de esto se pueden encontrar en su sitio web.
Revisar la Papel y Github. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestra página de Reddit, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools