Estás leyendo la publicación: Conozca este modelo de inteligencia artificial llamado ‘PhysDiff’, que inculca las leyes de la física en el proceso de difusión para generar movimientos humanos físicamente plausibles
La generación de movimiento humano a través del aprendizaje profundo es crucial con muchas aplicaciones en realidad virtual, juegos y animación. Deben aprender un modelo generativo condicional que pueda capturar la distribución multimodal de los movimientos humanos en contextos comunes como la síntesis de texto a movimiento. Debido a la amplia gama de movimientos humanos y las diversas interacciones entre las partes del cuerpo humano, la distribución puede ser muy compleja. Debido a su excelente capacidad para simular distribuciones complejas, que ha sido ampliamente probada en el dominio de la generación de imágenes, los modelos de difusión de ruido son modelos generativos especialmente adecuados para esta tarea.
La alta probabilidad de prueba ha demostrado con frecuencia una fuerte cobertura modal para estos modelos. Además, superan a los codificadores automáticos variacionales (VAEs), flujos de normalización y redes antagónicas generativas (GAN) en calidad de muestra y estabilidad de entrenamiento. Esto inspiró esfuerzos recientes para proponer modelos de difusión de movimiento que funcionan sustancialmente mejor que los modelos generativos profundos convencionales en la generación de movimiento. Sin embargo, los modelos de difusión de movimiento existentes ignoran los principios fundamentales que rigen el movimiento humano. Aunque los modelos de difusión son mejores para simular la distribución del movimiento humano, aún necesitan simular explícitamente dinámicas complicadas provocadas por presiones y contacto o imponer limitaciones físicas.
Debido a esto, sus movimientos con frecuencia tienen anomalías notables como flotación, deslizamiento de pies y penetración en el suelo. Muchas aplicaciones del mundo real, incluidas la animación y la realidad virtual, se ven significativamente obstaculizadas por esto porque las personas son muy sensibles incluso a la más mínima indicación de inexactitud física. Hacer que los modelos de difusión del movimiento humano sean conscientes de la física es un problema crucial que debe resolverse. Sugieren que un nuevo modelo de difusión de movimiento guiado por la física (PhysDiff) aborde este problema mediante la incorporación de principios físicos en el procedimiento de difusión de eliminación de ruido. PhysDiff utiliza un módulo de proyección de movimiento basado en la física (más adelante se proporcionarán detalles) para proyectar un movimiento de entrada en un espacio físicamente creíble. Proyectan el movimiento sin ruido de un paso de difusión utilizando el módulo de proyección de movimiento durante el proceso de difusión.
Este nuevo movimiento guía aún más el proceso de difusión de eliminación de ruido en la siguiente etapa de difusión. Podría ser tentador incluir la proyección basada en la física después del proceso de difusión. Sin embargo, como el movimiento sin ruido de la difusión podría ser demasiado improbable para que un paso de proyección basado en la física lo rectifique, esto podría dar lugar a movimientos extraños (consulte la figura a continuación para ver un ejemplo). Para mantener el movimiento cerca de la distribución de datos mientras se avanza hacia el espacio físicamente plausible, deben incluir la proyección en el proceso de difusión y aplicar la física y la difusión de manera iterativa. Al simular el movimiento en un simulador de física, el módulo de proyección de movimiento basado en la física desempeña el trabajo crucial de hacer cumplir las limitaciones físicas en PhysDiff.
Dado que el movimiento es fisiológicamente demasiado improbable para corregirlo en un solo paso, el resultado final es un movimiento antinatural. Las etapas de múltiples proyecciones (derecha) emplean de forma iterativa la física y la difusión para resolver este problema.
Entrenan una política de imitación de movimiento que puede ordenar a un agente de personaje en el simulador que imite varios movimientos de entrada, utilizando específicamente datos de captura de movimiento a gran escala. El movimiento simulado resultante elimina artefactos como la flotación, el deslizamiento de los pies y la penetración del suelo al tiempo que impone límites físicos. Una vez entrenada, la política de imitación de movimiento puede producir un movimiento físicamente apropiado al simular el movimiento sin ruido de un paso de difusión. En las tareas de generación de texto a movimiento y generación de acción a movimiento, evalúan su modelo, PhysDiff. Utilizan la red del modelo de difusión de movimiento (MDM) de última generación (SOTA) como eliminador de ruido de su modelo porque su enfoque es indiferente a la instanciación precisa de la red de eliminación de ruido utilizada para la difusión.
En el benchmark HumanML3D a gran escala, su modelo supera con creces los métodos de difusión de movimiento SOTA para la creación de texto a movimiento, reduciendo los errores físicos en más del 86 % y mejorando la calidad del movimiento en más del 20 %, como lo muestra la distancia de inicio de Frechet ( DEFENSOR). Su modelo nuevamente reduce la métrica de error de física para la generación de acción a movimiento en más de un 78 % en HumanAct12 y un 94 % en UETC mientras sigue obteniendo puntajes FID competitivos. También realizan estudios en profundidad para explorar diferentes cronogramas para la proyección basada en la física o los pasos de tiempo de difusión de la proyección. Ellos notan una compensación interesante entre la calidad del movimiento y la plausibilidad científica al cambiar el número de pasos de proyección basados en la física.
Más específicamente, hasta cierto punto, aumentar el número de pasos de proyección mejora la plausibilidad física y la calidad del movimiento; sin embargo, después de ese punto, la calidad del movimiento tiende a degradarse, lo que significa que el movimiento aún respeta las restricciones físicas pero aún puede parecer artificial. Esta idea nos indica que empleemos un número equilibrado de fases de proyección basadas en la física para producir movimiento con una gran credibilidad física. Además, descubrieron que los pasos de difusión tardía funcionan mejor que los primeros pasos cuando se agrega la proyección basada en la física. Postulan que los movimientos de los primeros pasos de difusión pueden gravitar hacia el movimiento medio de los datos de entrenamiento y que la proyección basada en la física puede hacer que este movimiento se desvíe aún más de la distribución de los datos, lo que dificulta el proceso de difusión.
El siguiente es un resumen de sus contribuciones:
• Proporcionan un modelo único de difusión de movimiento guiado por la física que crea movimientos físicamente adecuados al incluir principios físicos en el proceso de difusión.
• Para hacer cumplir los límites físicos, sugieren usar la imitación del movimiento humano como un módulo de proyección de movimiento en un simulador de física.
• En conjuntos de datos de movimiento a gran escala, su modelo aumenta significativamente la plausibilidad física y logra el rendimiento de SOTA en calidad de movimiento. Su minuciosa investigación también ofrece información sobre cronogramas de difusión guiados por la física y compensaciones.