Estás leyendo la publicación: Conoce ‘EDGE’: un modelo de IA basado en la difusión que genera secuencias de baile realistas y de formato largo condicionadas por la música
Muchas culturas otorgan un gran valor a la danza como medio de expresión, comunicación y conexión social. Sin embargo, producir nuevos bailes o animaciones de baile es un desafío porque los movimientos de baile son expresivos y de forma libre, mientras que la música los organiza cuidadosamente. En realidad, esto requiere una animación manual que requiere mucho tiempo o técnicas de captura de movimiento inviables. Sin embargo, la carga del proceso de creación se puede reducir mediante el uso de métodos computacionales para generar bailes automáticamente. Esto tiene una amplia gama de aplicaciones, que incluyen ayudar a los animadores a crear nuevos bailes y proporcionar personajes interactivos en videojuegos o realidad virtual con movimientos realistas y variados basados en la música proporcionada por el usuario. Además, la creación de danza puede arrojar luz sobre cómo interactúan la música y el movimiento, un campo de estudio obligatorio en neurología.
Investigaciones anteriores han hecho grandes avances en la aplicación de técnicas basadas en el aprendizaje automático. Aún así, todavía tiene que tener mucho éxito en la producción de bailes a partir de música que se adhiera a los requisitos del usuario. Además, los trabajos anteriores emplean con frecuencia criterios cuantitativos que demuestran ser poco fiables, y evaluar las danzas creadas es un proceso difícil y subjetivo. Este documento ofrece Editable Dance Generation (EDGE), una técnica de generación de baile de vanguardia que genera movimientos de baile realistas y fisiológicamente razonables a partir de la música de entrada. En su enfoque, se utiliza un potente extractor de características musicales llamado Jukebox junto con un modelo de difusión basado en transformadores.
Con su metodología basada en la difusión, la danza puede beneficiarse de potentes funciones de edición como el condicionamiento conjunto. Se sugiere una métrica novedosa que captura la corrección física de los comportamientos de contacto con el suelo sin un modelo físico explícito, además de los beneficios que las decisiones de modelado imparten instantáneamente. En conclusión, lo siguiente es lo que han aportado:
1. Proporcionan un método de generación de baile basado en la difusión que puede producir secuencias de baile de longitud arbitraria al tiempo que combina una actuación de vanguardia con potentes herramientas de edición.
2. Examinan las medidas en estudios anteriores y demuestran que son representaciones inexactas de la calidad evaluada por humanos, como lo revelan importantes investigaciones de usuarios.
3. Presentan la puntuación de contacto físico del pie, una nueva métrica cuantitativa sencilla basada en la aceleración para puntuar la plausibilidad física de los movimientos cinemáticos generados que no requieren un modelado físico explícito. Usando una pérdida de consistencia de contacto novedosa, proponen un nuevo método para eliminar las inverosimilitudes físicas del deslizamiento del pie en los signos inducidos.
4. Mediante el uso de representaciones de audio de música de Jukebox, un modelo generativo preentrenado para música que previamente ha mostrado un alto rendimiento en desafíos de predicción específicos de música, mejoran las metodologías anteriores de extracción de características de audio hechas a mano.
Uno puede visitar su sitio web, que también tiene maravillosas demostraciones en video. Es algo que no verías todos los días.