El Instituto Allen para investigadores de IA propone PROCTHOR: un marco de aprendizaje automático para la generación procedimental de entornos de IA incorporados

Estás leyendo la publicación: El Instituto Allen para investigadores de IA propone PROCTHOR: un marco de aprendizaje automático para la generación procedimental de entornos de IA incorporados

El uso de datos de entrenamiento a gran escala, la visión por computadora y los modelos de procesamiento de lenguaje natural se han fortalecido. Modelos recientes como CLIP, DALL-E, GPT-3 y Flamingo aprovechan grandes cantidades de datos agnósticos de tareas para entrenar previamente grandes redes neuronales que funcionan increíblemente bien. En comparación, la comunidad de investigación de IA incorporada entrena principalmente a los agentes en simuladores con muchas menos situaciones. Debido a la complejidad de las tareas y la necesidad de ampliar los horizontes de planificación, los modelos de E-AI de mayor rendimiento continúan sobreajustándose a las escenas de entrenamiento restringidas y, en consecuencia, se transfieren de manera deficiente a contextos desconocidos.

Aunque los simuladores de E-AI se han vuelto cada vez más poderosos en los últimos años, con soporte para física, manipuladores, estados de objetos, objetos deformables, fluidos y equivalentes de simulación real, escalarlos a decenas de miles de escenas sigue siendo un desafío. Las configuraciones de E-AI existentes se desarrollan a mano o se obtienen a partir de escaneos 3D de estructuras del mundo real. El primer método requiere una gran cantidad de esfuerzo por parte de los diseñadores 3D para crear activos 3D, organizándolos en arreglos aceptables dentro de ubicaciones enormes y estableciendo meticulosamente las texturas y la iluminación adecuadas en estos entornos. Este último implica mover cámaras especializadas a través de varias situaciones del mundo real y luego unir las fotos resultantes para crear reconstrucciones en 3D de las escenas.

🔥 Recomendado:  Conozca a Magnushammer: un enfoque basado en transformadores para la selección de premisas

Estas técnicas no son escalables y no es factible ampliar los repositorios de escenas existentes en órdenes de magnitud. PROCTHOR, un marco basado en AI2-THOR, se presenta para construir entornos totalmente interactivos con procedimientos físicos habilitados para la investigación de E-AI. PROCTHOR puede generar una selección amplia y diversa de planos de planta que se ajusten a las especificaciones de un espacio determinado. Para completar automáticamente cada plano de planta, se emplea una biblioteca de activos masiva de 108 tipos de elementos y 1633 instancias totalmente interactuables, lo que garantiza que las ubicaciones de los objetos sean físicamente factibles, naturales y realistas.

La intensidad y el tono de los elementos de iluminación en cada escena también se pueden cambiar para reflejar las diferencias en la iluminación interior y la hora del día. A los activos y edificios más importantes, como paredes y puertas, se les pueden asignar diferentes colores y texturas extraídos de conjuntos de colores y materiales realistas para cada tipo de activo. La variedad de diseños, componentes, ubicaciones e iluminación combinados da como resultado una colección arbitrariamente enorme de configuraciones, lo que permite que PROCTHOR crezca órdenes de magnitud más allá de la cantidad de escenas que actualmente manejan los simuladores modernos. Además, PROCTHOR permite la aleatorización dinámica de materiales, lo que permite aleatorizar materiales y colores de activos específicos cada vez que se guarda un entorno en la memoria para el entrenamiento.

ARCHITECTHOR es una colección en 3D diseñada por un artista de diez casas de alta calidad totalmente interactivas, destinadas a ser utilizadas como un entorno de prueba para la investigación dentro de contextos domésticos. Los entornos ARCHITECTHOR son más completos, diversificados y realistas que los entornos AI2-iTHOR y RoboTHOR. A diferencia de los escenarios creados con escaneos 3D, los escenarios de PROCTHOR cuentan con elementos totalmente interactivos y admiten varios estados de objetos distintos, lo que les permite ser movidos físicamente por agentes equipados con brazos robóticos. Los investigadores ilustran la facilidad de uso y la eficacia de PROCTHOR muestreando un entorno de 10 000 viviendas con varios diseños que van desde modestas cabañas de 1 habitación hasta casas más grandes de 10 habitaciones.

🔥 Recomendado:  20 ideas de resolución de año nuevo para 2024

Los agentes se capacitan en PROCTHOR-10K utilizando arquitecturas neuronales mínimas (sin sensor de profundidad, solo canales RGB, sin mapeo explícito y sin supervisión de tareas humanas) y generan modelos de última generación en varios puntos de referencia de navegación e interacción.

En resumen, las contribuciones incluyen PROCTHOR, un marco para la generación procesal de un número infinito de entornos simulados diversos y totalmente interactivos, ARCHITECTHOR, un nuevo conjunto de casas diseñadas por artistas en 3D para la evaluación de E-AI y resultados de SoTA en todo el mundo. seis puntos de referencia de E-AI que cubren tareas de manipulación y navegación, incluidos resultados sólidos de 0 disparos. Un análisis de ablación demuestra los beneficios de escalar de 10 a 100 a 1K, luego a 10K escenas, e indica que se pueden obtener más ganancias llamando a PROCTHOR para generar entornos aún más amplios. PROCTHOR pronto será de código abierto y el código utilizado en este proyecto estará disponible. Hasta entonces, se hizo una computadora portátil Google Colab para comenzar con ProcTHOR-10K.

Este artículo está escrito como un artículo de resumen de investigación por el personal de investigación de Marktechpost basado en el trabajo de investigación ‘ProcTHOR: IA incorporada a gran escala mediante generación procedimental‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y proyecto.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools