Investigadores de CMU proponen TIDEE: un agente incorporado que puede ordenar habitaciones nunca antes vistas sin ninguna instrucción explícita

Estás leyendo la publicación: Investigadores de CMU proponen TIDEE: un agente incorporado que puede ordenar habitaciones nunca antes vistas sin ninguna instrucción explícita

La operación efectiva de un robot requiere más que solo obediencia ciega a comandos predeterminados. Los robots deben responder cuando hay una desviación obvia de la norma y deben poder deducir un contexto importante a partir de una instrucción incompleta. La instrucción parcial o autogenerada requiere el tipo de razonamiento que requiere una sólida comprensión de cómo deben actuar las cosas en el entorno (objetos, física, otros agentes, etc.). Este tipo de pensamiento y acción es un componente crucial del razonamiento de sentido común incorporado, que es esencial para que los robots trabajen e interactúen naturalmente en el mundo real.

El campo del pensamiento de sentido común incorporado se ha quedado rezagado con respecto a los agentes incorporados que pueden seguir instrucciones específicas paso a paso porque estos últimos deben aprender a observar y actuar sin instrucciones explícitas. El sentido común incorporado, el pensamiento puede estudiarse a través de tareas como ordenar, en las que el agente debe reconocer elementos en los lugares equivocados y tomar medidas correctivas para devolverlos a entornos más apropiados. El agente debe navegar y manipular de manera inteligente mientras busca en ubicaciones probables los objetos que se desplazarán, reconociendo cuándo las cosas están fuera de sus ubicaciones naturales en la escena actual y determinando dónde reposicionar los objetos para que estén en las ubicaciones adecuadas. El razonamiento de sentido común de la colocación de objetos y las habilidades deseables de los seres inteligentes se unen en este desafío.

TIDEE es un agente incorporado propuesto desarrollado por el equipo de investigación que puede limpiar espacios que nunca antes había visto sin orientación. TIDEE es el primer tipo porque puede escanear una escena en busca de elementos que no están donde deberían estar, determinar en qué parte de la escena colocarlos y luego moverlos allí con precisión.

🔥 Recomendado:  La explicabilidad puede abordar el problema de IA de cada industria: la falta de transparencia

TIDEE investiga los alrededores de una casa, encuentra cosas fuera de lugar, infiere contextos de objetos probables para ellos, localiza dichos contextos en la escena actual y mueve los objetos de regreso a sus ubicaciones adecuadas. Los antecedentes de sentido común están codificados en una red de búsqueda visual que guía la exploración del agente para localizar eficientemente el receptáculo de interés en la escena actual para reposicionar el objeto; ii) detectores visual-semánticos que detectan objetos fuera de lugar; y iii) una memoria gráfica neuronal asociativa de cosas y relaciones espaciales que propone receptáculos y superficies semánticas plausibles para reposiciones de objetos. Usando el entorno de simulación AI2THOR, los investigadores pusieron a TIDEE a prueba al hacer que limpiara los alrededores caóticos. TIDEE completa el trabajo directamente desde la entrada de píxeles y profundidad sin haber visto la misma habitación previamente, utilizando solo los conocimientos previos aprendidos de una colección diferente de casas de entrenamiento. De acuerdo con las evaluaciones humanas de los cambios resultantes en el diseño de la sala, TIDEE funciona mejor que las variantes ablativas del modelo que excluyen uno o más de los anteriores de sentido común.

TIDEE puede ordenar espacios que nunca antes había visto sin ninguna guía o exposición previa a los lugares u objetos en cuestión. TIDEE hace esto mirando alrededor del área, identificando artículos y etiquetándolos como normales o anormales. TIDEE emplea la inferencia de gráficos en su gráfico de escena y en la memoria gráfica externa para inferir categorías de receptáculos potenciales cuando un objeto está fuera de lugar. Luego utiliza el mapa semántico espacial de la escena para dirigir una red de búsqueda basada en imágenes a posibles ubicaciones de categorías de receptáculos.

🔥 Recomendado:  Nuevas visualizaciones de Vizia: dar vida a sus datos en más formas que nunca

¿Cómo funciona?

TIDEE limpia las habitaciones en tres pasos distintos. TIDEE comienza escaneando el área y ejecutando un detector de anomalías en cada paso de tiempo hasta que se encuentra un objeto sospechoso. TIDEE luego se mueve hacia donde está el objeto y lo agarra. El segundo paso consiste en que TIDEE infiere un receptáculo probable para el elemento basándose en el escenario gráfico y la memoria gráfica externa conjunta. Si TIDEE aún no ha reconocido el contenedor, utilizará una red de búsqueda visual para guiar su exploración del área y sugerir dónde se puede encontrar el contenedor. TIDEE conserva en la memoria los centroides 3D estimados de los objetos previamente identificados y utiliza esta información para la navegación y el seguimiento de objetos.

Los atributos visuales de cada elemento se recopilan utilizando un detector de objetos disponible comercialmente. Al mismo tiempo, las características del lenguaje relacional se producen alimentando predicciones del modelo de lenguaje previamente entrenado para las relaciones 3D entre los objetos (como “junto a”, “apoyado por”, “arriba”, etc.).

TIDEE contiene un módulo de gráfico neuronal programado para anticipar posibles ideas de ubicación de elementos una vez que se ha recogido un objeto. Un elemento que se colocará, un gráfico de memoria que contiene conexiones contextuales plausibles aprendidas de escenarios de entrenamiento y un gráfico de escena que codifica la configuración de relación de objeto en la escena actual interactúan para hacer que el módulo funcione.

TIDEE emplea una red de búsqueda óptica que predice la probabilidad de la presencia de un objeto en cada punto espacial en un mapa de obstáculos dado el mapa de obstáculos semántico y una categoría de búsqueda. Luego, el agente busca en aquellas áreas que cree que es más probable que contengan el objetivo.

🔥 Recomendado:  Una plataforma para administrar datos sin pérdidas para el aprendizaje automático y compartir datos experimentales

TIDEE tiene dos deficiencias, las cuales son direcciones obvias para futuras investigaciones: no considera los estados abiertos y cerrados de los elementos, ni incluye su postura 3D como parte del proceso desordenado y de reestructuración.

Es posible que el caos que resulta de esparcir cosas descuidadamente por una habitación no sea representativo del caos de la vida real.

TIDEE completa el trabajo directamente desde la entrada de píxeles y profundidad sin haber visto la misma habitación previamente, utilizando solo los conocimientos previos aprendidos de una colección diferente de casas de entrenamiento. De acuerdo con las evaluaciones humanas de los cambios resultantes en el diseño de la sala, TIDEE funciona mejor que las variantes ablativas del modelo que excluyen uno o más de los anteriores de sentido común. Una versión de modelo simplificado supera con creces a una solución de alto rendimiento en un punto de referencia de reorganización de sala comparable, lo que permite al agente observar el estado objetivo antes de la reorganización.