Enseñar a los robots sobre herramientas con campos de radiación neuronal (NeRF)

Estás leyendo la publicación: Enseñar a los robots sobre herramientas con campos de radiación neuronal (NeRF)

Una nueva investigación de la Universidad de Michigan ofrece una forma para que los robots comprendan los mecanismos de las herramientas y otros objetos articulados del mundo real, mediante la creación de objetos Neural Radiance Fields (NeRF) que demuestran la forma en que estos objetos se mueven, lo que potencialmente permite que el robot interactúe. con ellos y usarlos sin la tediosa preconfiguración dedicada.

Al utilizar referencias de fuentes conocidas para la motilidad interna de las herramientas (o cualquier objeto con una referencia adecuada), NARF22 puede sintetizar una aproximación fotorrealista de la herramienta y su rango de movimiento y tipo de operación.  Fuente: https://progress.eecs.umich.edu/projects/narf/

Al utilizar referencias de fuentes conocidas para la motilidad interna de las herramientas (o cualquier objeto con una referencia adecuada), NARF22 puede sintetizar una aproximación fotorrealista de la herramienta y su rango de movimiento y tipo de operación. Fuente: https://progress.eecs.umich.edu/projects/narf/

Los robots que deben hacer más que evitar a los peatones o realizar rutinas preprogramadas elaboradas (para las cuales los conjuntos de datos no reutilizables probablemente han sido etiquetados y entrenados con cierto costo) necesitan este tipo de capacidad de adaptación si van a trabajar con los mismos materiales y objetos con los que el resto de nosotros debemos lidiar.

Hasta la fecha, ha habido una serie de obstáculos para dotar a los sistemas robóticos de este tipo de versatilidad. Estos incluyen la escasez de conjuntos de datos aplicables, muchos de los cuales presentan una cantidad muy limitada de objetos; el gran gasto que implica generar el tipo de modelos 3D fotorrealistas basados ​​en mallas que pueden ayudar a los robots a aprender a ser instrumentales en el contexto del mundo real; y la calidad no fotorrealista de los conjuntos de datos que en realidad pueden ser adecuados para el desafío, lo que hace que los objetos parezcan inconexos de lo que el robot percibe en el mundo que lo rodea y lo entrena para buscar un objeto similar a una caricatura que nunca aparecerá en realidad.

Para abordar esto, los investigadores de Michigan, cuyo papel se titula NARF22: campos de radiación articulados neuronales para renderizado consciente de la configuraciónhan desarrollado una canalización de dos etapas para generar objetos articulados basados ​​en NeRF que tienen una apariencia del “mundo real” y que incorporan el movimiento y las limitaciones resultantes de cualquier objeto articulado en particular.

🔥 Recomendado:  ¿Cómo manejar datos dinámicos con redes neuronales caóticas?

Aunque parece más complejo, las dos etapas esenciales de la tubería NARF22 implican renderizar partes estáticas de herramientas móviles y luego componer estos elementos en un segundo conjunto de datos que se informa sobre los parámetros de movimiento que tienen estas partes, entre sí.  Fuente: https://arxiv.org/pdf/2210.01166.pdf

Aunque parece más complejo, las dos etapas esenciales de la tubería NARF22 implican renderizar partes estáticas de herramientas móviles y luego componer estos elementos en un segundo conjunto de datos que se informa sobre los parámetros de movimiento que tienen estas partes, entre sí. Fuente: https://arxiv.org/pdf/2210.01166.pdf

El sistema se llama Campo de radiación articulado neural – o NARF22, para distinguirlo de otro proyecto de nombre similar.

NARF22

Determinar si un objeto desconocido está potencialmente articulado o no requiere una cantidad casi inconcebible de conocimiento previo al estilo humano. Por ejemplo, si nunca antes había visto un cajón cerrado, podría parecer cualquier otro tipo de panel decorativo; hasta que no abre uno, interioriza el ‘cajón’ como un objeto articulado con un único eje de movimiento. (adelante y hacia atrás).

Por lo tanto, NARF22 no pretende ser un sistema exploratorio para recoger cosas y ver si tienen partes móviles accionables, casi un comportamiento simiesco que implicaría una serie de escenarios potencialmente desastrosos. Más bien, el marco se basa en el conocimiento disponible en Formato de descripción de robot universal (URDF): un formato basado en XML de código abierto que es ampliamente aplicable y adecuado para la tarea. Un archivo URDF contendrá los parámetros utilizables de movimiento en un objeto, así como descripciones y otras facetas etiquetadas de las partes del objeto.

En las canalizaciones convencionales, es necesario describir esencialmente las capacidades de articulación de un objeto y etiquetar los valores conjuntos pertinentes. Esta no es una tarea barata o fácilmente escalable. En cambio, el flujo de trabajo de NaRF22 representa los componentes individuales del objeto antes de ‘ensamblar’ cada componente estático en una representación articulada basada en NeRF, con conocimiento de los parámetros de movimiento proporcionados por URDF.

En la segunda etapa del proceso, se crea un renderizador completamente nuevo que incorpora todas las partes. Aunque podría ser más fácil simplemente concatenar las partes individuales en una etapa anterior y omitir este paso posterior, los investigadores observan que el modelo final, que se entrenó en una GPU NVIDIA RTX 3080 bajo una CPU AMD 5600X, tiene menores demandas computacionales durante la retropropagación. que una asamblea tan abrupta y prematura.

🔥 Recomendado:  AI vs Machine Learning vs Deep Learning: ¿En qué se diferencian?

Además, el modelo de la segunda etapa se ejecuta al doble de la velocidad de un ensamblaje concatenado de “fuerza bruta”, y cualquier aplicación secundaria que pueda necesitar utilizar información sobre partes estáticas del modelo no necesitará su propio acceso a la información URDF, porque esto ya se ha incorporado en el renderizador de etapa final.

Datos y Experimentos

Los investigadores realizaron una serie de experimentos para probar NARF22: uno para evaluar la representación cualitativa de la configuración y pose de cada objeto; una prueba cuantitativa para comparar los resultados obtenidos con puntos de vista similares vistos por robots del mundo real; y una demostración de la estimación de configuración y un desafío de refinamiento de 6 DOF (profundidad de campo) que usó NARF22 para realizar la optimización basada en gradientes.

Los datos de entrenamiento fueron tomados del Herramientas de progreso conjunto de datos de un artículo anterior de varios de los autores del trabajo actual. Progress Tools contiene alrededor de seis mil imágenes RGB-D (es decir, incluida la información de profundidad, esencial para la visión robótica) con una resolución de 640×480. Las escenas utilizadas incluyeron ocho herramientas manuales, divididas en sus partes constituyentes, completas con modelos de malla e información sobre las propiedades cinemáticas de los objetos (es decir, la forma en que están diseñados para moverse y los parámetros de ese movimiento).

El conjunto de datos de Progress Tools presenta cuatro herramientas articuladas.  Las imágenes de arriba son representaciones basadas en NeRF de NARF22.

El conjunto de datos de Progress Tools presenta cuatro herramientas articuladas. Las imágenes de arriba son representaciones basadas en NeRF de NARF22.

Para este experimento, se entrenó un modelo configurable final usando solo alicates de juez de línea, alicates de punta larga y una abrazadera (ver imagen arriba). Los datos de entrenamiento contenían una sola configuración de la abrazadera y una para cada una de las pinzas.

La implementación de NARF22 se basa en FastNeRF, con los parámetros de entrada modificados para concentrarse en la pose concatenada y codificada espacialmente de las herramientas. FastNeRF utiliza un perceptrón multicapa factorizado (MLP) junto con un mecanismo de muestreo voxelizado (los vóxeles son esencialmente píxeles, pero con coordenadas 3D completas, para que puedan operar en un espacio tridimensional).

🔥 Recomendado:  Roshanak Houmanfar, vicepresidente de productos de aprendizaje automático en Integrate.ai - Serie de entrevistas

Para la prueba cualitativa, los investigadores observan que hay varias partes ocluidas de la abrazadera (es decir, la columna central, que no se pueden conocer o adivinar al observar el objeto, sino solo al interactuar con él, y que el sistema tiene dificultades para crear este geometría ‘desconocida’.

Representaciones cualitativas de herramientas.

Representaciones cualitativas de herramientas.

Por el contrario, los alicates pudieron generalizarse bien a configuraciones novedosas (es decir, a extensiones y movimientos de sus partes que están dentro de los parámetros URDF, pero que no se abordan explícitamente en el material de capacitación para el modelo).

Los investigadores observaron, sin embargo, que los errores de etiquetado de los alicates llevaron a una disminución de la calidad de representación de las puntas muy detalladas de las herramientas, lo que afectó negativamente a las representaciones, un problema relacionado con preocupaciones mucho más amplias sobre la logística del etiquetado, el presupuesto y la precisión en la computadora. sector de investigación de la visión, en lugar de cualquier deficiencia de procedimiento en la tubería NARF22.

Resultados de la prueba de precisión de renderizado.

Resultados de la prueba de precisión de renderizado.

Para las pruebas de estimación de configuración, los investigadores realizaron el refinamiento de la pose y la estimación de la configuración a partir de una pose “rígida” inicial, evitando el almacenamiento en caché u otras soluciones alternativas de aceleración utilizadas por el propio FastNeRF.

Luego entrenaron 17 escenas bien ordenadas del conjunto de prueba de Progress Tools (que se había dejado de lado durante el entrenamiento), ejecutando 150 iteraciones de optimización de descenso de gradiente bajo el optimizador de Adam. Este procedimiento recuperó la estimación de la configuración “extremadamente bien”, según los investigadores.

Resultados de la prueba de estimación de configuración.

Resultados de la prueba de estimación de configuración.

Publicado por primera vez el 5 de octubre de 2022.