Meta AI lanza el conjunto de datos HM3D-Sem, el conjunto de datos más grande de la historia de espacios interiores 3D con anotaciones semánticas

Estás leyendo la publicación: Meta AI lanza el conjunto de datos HM3D-Sem, el conjunto de datos más grande de la historia de espacios interiores 3D con anotaciones semánticas

La escalabilidad ha cobrado importancia como resultado de los recientes avances tecnológicos. Grandes redes neuronales han sido entrenadas en entornos 3D utilizando aprendizaje de refuerzo profundo sobre miles de millones de pasos de experiencia, lo que ha ayudado a avanzar en el desarrollo de entidades inteligentes incorporadas capaces de completar tareas impulsadas por objetivos. Para garantizar que las redes funcionen a una escala tan masiva sin problemas, los sistemas RL deben escalar a varias computadoras y hacer un buen uso de los recursos disponibles, como las GPU, todo mientras se mantiene un aprendizaje eficiente en las muestras. Uno de estos métodos prometedores para lograr esta escala es la política por lotes. Estos métodos recopilan la experiencia de varios entornos diferentes mediante la política y la actualizan con la experiencia acumulada.

En general, el RL de aprendizaje por refuerzo según la política se divide ampliamente en clases sincrónicas (SyncOnRL) y asincrónicas (AsyncOnRL). Primero, la política se aplica al lote completo hasta que se hayan recopilado T pasos de todos los N entornos. Este es el primero de dos puntos de sincronización en SyncOnRL. La política actualizada se basa en este lote de experiencia en forma de (T, N). Sin embargo, el rendimiento disminuye debido a la sincronización porque el sistema debe esperar mucho tiempo para que se complete el entorno más lento. El efecto rezagado es un término que se utiliza con frecuencia para describir este fenómeno. Al eliminar estas ubicaciones de sincronización, AsyncOnRL reduce el efecto rezagado y aumenta el rendimiento. En un artículo publicado recientemente por investigadores de Meta AI y el Instituto de Tecnología de Georgia, el equipo sugirió el lanzamiento de experiencia variable (VER). Este método combina los beneficios de SyncOnRL y AsyncOnRL mientras borra sus distinciones. Similar a AsyncOnRL, VER no usa puntos de sincronización; en su lugar, calcula los siguientes pasos de acción y entornos, y actualiza la política tan pronto como sea posible. VER actualiza la política después de recopilar experiencia con la actual, tal como lo hace SyncOnRL.

🔥 Recomendado:  Cómo crear una encuesta atractiva en Facebook que aumente la interacción con sus seguidores en las redes sociales

Dos ideas importantes sirvieron como base para VER. La primera fue que AsyncOnRL reduce el efecto rezagado al recopilar implícitamente una cantidad diferente de experiencia de cada entorno (más de entornos rápidos para simular y menos de entornos lentos). El segundo hallazgo es que la duración del despliegue es constante tanto para SyncOnRL como para AsyncOnRL. Aunque una longitud de implementación establecida puede facilitar la implementación, según los investigadores, no es necesaria para RL. Estos dos hallazgos cruciales impulsaron el desarrollo del lanzamiento de experiencia variable (VER) o la práctica de recopilar lanzamientos con un número variable de etapas. Según el ritmo de su simulación, VER modifica la duración del despliegue para cada entorno. El resultado es un sistema RL que vence el efecto rezagado y conserva la eficiencia de la muestra aprendiendo de los datos de la póliza. VER se concentra en usar efectivamente una sola GPU. Los investigadores combinaron VER con la técnica distribuida descentralizada presentada en [Wijmans et al., 2020] para permitir un escalado efectivo a muchas GPU.

Después de realizar varias evaluaciones experimentales, los investigadores concluyeron que VER da como resultado aceleraciones considerables y constantes en una amplia gama de tareas de manipulación móvil y navegación incorporada en entornos de simulación 3D fotorrealistas. En particular, VER es un 60-100 % más rápido (una aceleración de 1,6-2x) que DD-PPO, el estado actual del arte para SyncOnRL distribuido, con una eficiencia de muestra equivalente para la navegación PointGoal y la navegación ObjectGoal en Habitat 1.0. En comparación con DD-PPO, Habitat 2.0 VER es un 150 % más rápido (velocidad 2,5x) en 1 GPU y un 170 % más rápido (velocidad 2,7x) en 8 GPU para tareas de manipulación móvil (abrir nevera/gabinete, recoger/colocar objetos). Con una eficiencia de muestreo mejorada, VER es un 70 % más rápido (aumento de velocidad de 1,7x) en 8 GPU que SampleFactory, el AsyncOnRL más avanzado actualmente disponible.

🔥 Recomendado:  11 monedas de 25 centavos que valen mucho dinero: $ 10,000 o más

El equipo aprovechó estas aceleraciones para entrenar habilidades encadenadas para tareas de reorganización de GeometricGoal en Home Assistant Benchmark (HAB). Descubrieron una sorprendente apariencia de navegación en habilidades que no requieren ninguna navegación. El talento Pick consiste específicamente en que un robot elija algo de una mesa. Nunca se requirió que el robot navegara durante el entrenamiento porque siempre se generaba cerca de la mesa. El robot, sin embargo, aprende a explorar y luego a elegir un objeto en un entorno desconocido con un 50 % de éxito, mostrando una generalización fuera de distribución sorprendentemente alta, según los investigadores, suponiendo que el movimiento base esté incluido en el espacio de acción. VER puede ser extremadamente útil al investigar la reorganización. Cuando se proporciona acceso a acciones de navegación, ayuda a identificar la apariencia de navegación en políticas que supuestamente no requieren navegación. Como resultado, se logra un gran progreso en Tidy House (+30% de éxito), pero también demuestra que no siempre es mejor eliminar las “acciones innecesarias”.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘VER: El escalamiento de la política de RL conduce al surgimiento de la navegación en el reordenamiento incorporado‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, enlace github y proyecto.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools