Allen Institute for AI Researchers presenta Phone2Proc: un proceso ligero mediante el cual un agente de IA incorporado puede sintonizar y ser robusto en un…

Estás leyendo la publicación: Allen Institute for AI Researchers presenta Phone2Proc: un proceso ligero mediante el cual un agente de IA incorporado puede sintonizar y ser robusto en un…

La inteligencia artificial (IA) incorporada es un subconjunto de sistemas de IA superinteligentes que son capaces de comandar objetos físicos reales en el entorno del mundo real. En términos simples, la IA incorporada permite que los objetos físicos se muevan a través del mundo real e interactúen físicamente con él de una manera análoga a como lo harían las personas. Un ejemplo de esto es un brazo robótico que puede realizar tareas rutinarias diarias. Sin embargo, estudios previos han demostrado que implementar agentes capacitados en una simulación en el mundo real es extremadamente laborioso y no siempre produce los resultados esperados.

Para simplificar este proceso, un equipo de investigadores del Instituto Allen de IA (A2I) introdujo un nuevo enfoque de entrenamiento de IA incorporado llamado Phone2Proc. Con este enfoque liviano, los usuarios pueden usar un teléfono celular para escanear un entorno y generar de forma procesal variaciones de escenas de entrenamiento específicas de esa ubicación, cuyo uso da como resultado agentes exitosos y robustos en el entorno real. El primer paso para crear agentes de IA incorporados robustos en el entorno real es usar una aplicación de iOS creada por el instituto de investigación para escanear el área objetivo. Usando dispositivos Apple como un iPhone o iPad, los usuarios pueden escanear un apartamento grande en cuestión de minutos y la aplicación genera una plantilla de entorno como un archivo USDZ.

🔥 Recomendado:  Salesforce AI Research presenta CodeTF: una biblioteca de transformadores integral para modelos de lenguaje de código grande (CodeLLM)

La aplicación utiliza la API RoomPlan de libre acceso de Apple, que ofrece una plantilla de cuadro delimitador de alto nivel del entorno que incluye la disposición de las habitaciones y el posicionamiento 3D de objetos significativos visibles para la cámara. El software también ofrece una amplia retroalimentación en tiempo real sobre el diseño de la escena mientras escanea una configuración para ayudar al usuario a realizar un escaneo más preciso. Una vez que finaliza el procedimiento de escaneo, las versiones de escena creadas se basan en el diseño escaneado y los objetos principales, como almacenamiento, un sofá, una mesa, una silla, una cama, un refrigerador, una chimenea, un inodoro y escaleras. entre otras cosas. Se agregan algunos componentes adicionales, como texturas, iluminación y objetos pequeños, para crear una mayor variación. Cabe destacar que los investigadores han desarrollado su aplicación de tal manera que el proceso de generación es extremadamente rápido.

Los investigadores utilizaron cinco tareas de ObjectGoal Navigation (ObjectNav), en las que los agentes deben encontrar una instancia de un objeto en un entorno no observado. Sin embargo, su método se puede utilizar en una variedad de entornos y aplicaciones de IA incorporadas. Phone2Proc genera escenas basadas en el escaneo creado para el entorno del mundo real y luego produce variaciones para esa escena, en contraste con el modelo de referencia, ProcTHOR, que genera y completa configuraciones a partir de una especificación de sala de alto nivel, como un 3- casa de dormitorio con cocina y sala de estar. Seis pasos conforman el proceso: analizar la plantilla de entorno, crear el diseño de la escena, seleccionar elementos de la biblioteca de activos que correspondan a las categorías semánticas escaneadas y considerar las colisiones de objetos. Los dos pasos finales implican poblar la escena con pequeños objetos que no fueron capturados al escanear y asignar materiales y elementos de iluminación.

🔥 Recomendado:  Cómo ser verificado en TikTok: ¿Qué puedes hacer para aumentar tu...

Para evaluar su enfoque, los investigadores realizaron múltiples experimentos para comparar su enfoque Phone2Proc con el enfoque de referencia de ProcTHOR en varios contextos, como un apartamento de 6 habitaciones, un apartamento de 3 habitaciones, una sala de conferencias y mucho más. En todos los escenarios del mundo real, Phone2Proc sobresale y supera el rendimiento del enfoque ProcTHOR de referencia. En cuanto a los números, el método creado por los investigadores de A2I tiene una tasa de éxito del 70,7 % en comparación con la tasa de referencia del 34,7 %. Los investigadores también realizaron varios experimentos para demostrar que Phone2Proc es resistente a varios tipos de perturbaciones en la escena y al dinamismo ambiental, lo que enfatiza su fortaleza. Estos incluyen espacios llenos de gente, el movimiento de personas o cosas dentro de la habitación, cambios en la iluminación e incluso el movimiento de los objetos de destino.