Estás leyendo la publicación: Investigadores de Stanford han desarrollado un modelo de inteligencia artificial (IA), SUMMON, que puede generar escenas de múltiples objetos a partir de una secuencia de interacción humana.
Capturar y sintetizar trayectorias de movimiento humano realistas puede ser extremadamente útil en realidad virtual, animaciones de personajes de juegos, CGI y robótica. Necesitamos grandes conjuntos de datos para ayudar a impulsar la investigación del aprendizaje automático en este campo. Aún así, el problema es que la construcción de conjuntos de datos de alta calidad anotados con movimientos humanos y la colocación de objetos en 3D es muy costosa y limitada. Las canalizaciones de generación de datos utilizadas para crear tales conjuntos de datos involucran dispositivos costosos como sistemas MoCap, cámaras de estructura y escáneres 3D; por lo tanto, se limitan a entornos de laboratorio, lo que es un cuello de botella en la diversidad de escenas.
Un equipo de investigadores de la Universidad de Stanford se reunió para resolver el novedoso problema de sintetizar las escenas solo a partir de trayectorias de movimiento humano.
propusieron CONVOCAR ( Sescena Ssíntesis de HMUun METROotíEN). SUMMON puede producir un conjunto diverso de colocaciones plausibles de objetos en una escena solo a partir de trayectorias de movimiento humano, como se muestra en Figura 1. SUMMON facilita sus predicciones principalmente en dos pasos principales. En primer lugar, un predictor de contacto de la escena humana (ContactoAnterior) predice los vértices de una malla humana que están en contacto con cualquier objeto. En segundo lugar, un sintetizador de escena encuentra un objeto que se ajusta a los puntos de contacto del paso anterior, como se muestra en Figura 2. Además, también puebla la escena con varios objetos que no están en contacto y encaja bien en la escena. El ContactFormer en SUMMON usa un transformador para incorporar información temporal para mejorar la consistencia de la predicción de los puntos de contacto en una secuencia de movimiento humano.
Usaron una versión modificada de SMPL-X para representar las poses del cuerpo humano y, con fines computacionales, redujeron el número de vértices de la malla de 10475 a 655 puntos. El conjunto de datos consta de secuencias de pares de vértices con la correspondiente F. Correspondientes a cada vértice, tienen un vector caliente F de tamaño número de clases de objetos + uno “vacío” clase para que el vértice no esté en contacto con ningún objeto. F denota el etiquetas semánticas de contacto (F) para todos los vértices en una pose corporal.
El ContactFormer consta de una GNN condicional (red neuronal gráfica) Arquitectura codificador-decodificador y una capa de transformador para mejorar la consistencia de la predicción mediante el modelado de dependencias temporales, como se muestra en figura 3. Una vez predicho el objeto en contacto, el modelo ha sido entrenado usando una combinación de dos pérdidas, asegurando que el objeto permanezca en contacto con la malla humana y no la penetre. Para este propósito, el SUMMON también reorganiza la orientación del objeto en contacto. Una vez que obtenemos los puntos de contacto, el modelo de síntesis de escena reduce aún más el ruido de predicción espacial votando mayoritariamente por la clase de objeto en contacto, como se muestra en Figura 4.
Además, se entrena un modelo de transformador en el 3D-Frente conjunto de datos, que toma como entrada las categorías existentes que están presentes en la escena y predice las categorías futuras que encajarán bien en la escena en espacios vacíos. Ayuda a completar la escena colocando diferentes objetos, no en contacto con la malla humana. En cuanto a los conjuntos de datos, el PROXD el conjunto de datos se usa para entrenar SUMMON, y el GIMO conjunto de datos se utiliza para la prueba. Precisión de reconstrucción y puntaje de consistencia se utilizan como métricas. La precisión de la reconstrucción es la corrección promedio de la etiqueta de contacto pronosticada en comparación con la realidad básica para cada vértice. El puntaje de consistencia intuitivamente significa que los puntos de contacto cercano deben tener las mismas etiquetas semánticas de contacto. El equipo también realizó un estudio de usuarios en el que le presentaron al usuario secuencias de movimiento humano y los objetos predichos en las escenas y les pidió que eligieran la ubicación más plausible y realista. 74,5% de los usuarios prefirieron SUMMON sobre otras líneas de base. Los resultados se muestran en Tabla 1 y Tabla 2. Figura 6 muestra alguna visualización de la predicción de todas las líneas base.
En conclusión, SUMMON tiene inmensas aplicaciones en escenarios de la vida real. Se puede usar para crear diversos conjuntos de datos de interacción entre humanos y escenas solo a partir de secuencias de movimiento humano, para animaciones y CGI, etc. El equipo también discutió el futuro de la investigación en esta dirección. Por ahora, SUMMON solo trata con contactos de cuerpo duro. También se puede extender a cuerpos blandos. Otra dirección de investigación puede tratarse de escenas dinámicas, donde el objeto de la escena se mueve durante el movimiento humano, etc.