Cyborgs y cerezas: la conexión improbable: este enfoque de IA utiliza el aprendizaje por refuerzo para enseñar a los robots cómo usar los palillos chinos

Estás leyendo la publicación: Cyborgs y cerezas: la conexión improbable: este enfoque de IA utiliza el aprendizaje por refuerzo para enseñar a los robots cómo usar los palillos chinos

Los robots son cada vez más frecuentes en nuestra vida diaria, desde aspiradoras automáticas hasta drones que entregan paquetes. Estamos presenciando un crecimiento en su capacidad para manejar tareas complejas a medida que avanza la tecnología. Están comenzando a realizar las tareas que alguna vez estuvieron limitadas solo a las capacidades humanas.

Una de esas tareas es agarrar objetos en entornos dinámicos e impredecibles, como recoger una cereza de un árbol. La rama no es estable, el viento es impredecible y la cereza es un objeto diminuto para un robot. Esta es una tarea extremadamente desafiante para un robot, ya que está acostumbrado a operar en entornos con soporte de superficie rígida, como en una fábrica donde ciertos objetos pasan a través de una banda estable.

Manipulación fina de objetos pequeños es una tarea desafiante para los robots debido a los errores de percepción, el ruido del sensor y la naturaleza inherentemente dinámica del problema. Por otro lado, es una tarea omnipresente en muchos campos, incluidos la fabricación, la atención médica y la agricultura, y su automatización podría tener un inmenso valor práctico y económico.

Cuando pensamos en un robot para una tarea predeterminada, como los que se utilizan en las líneas de montaje de las fábricas, es posible diseñar hardware específico para la tarea dada. Al analizar el proceso de ensamblaje y las herramientas necesarias, los ingenieros pueden desarrollar un diseño de robot que pueda resolver de manera eficiente el problema en cuestión. Este enfoque es efectivo porque el robot no está diseñado para usarse en otras fábricas y los objetos con los que interactúa no cambiarán dentro del entorno de la fábrica. Sin embargo, la historia cambia cuando queremos llegar a una solución universal.

🔥 Recomendado:  La investigación muestra que más personas están buscando 'venganza' contra las empresas debido al mal servicio al cliente

Supongamos que necesitamos desarrollar un robot que pueda agarrar objetos en diferentes entornos sin ninguna limitación. Sabemos que el entorno y los objetos serán dinámicos. ¿Todavía es posible desarrollar un robot que pueda agarrar con precisión los objetos sin un soporte estable? Esta es la pregunta que se hicieron los autores, y se les ocurrió cerezabot.

cerezabot es un sistema dinámico para la manipulación fina que aprende el comportamiento pre-entrenando en una simulación aproximada y luego ajustando con RL sin modelo en el mundo real. Está diseñado para ser lo suficientemente preciso como para manejar la tarea con éxito y, al mismo tiempo, es robusto contra los errores de percepción y el ruido del sensor. Además, puede manejar escenarios dinámicos como entornos cambiantes, objetos en movimiento, etc. Además, puede generalizarse bien a objetos con diferentes tamaños, formas y texturas sin necesidad de un hardware específico.

cerezabot aprovecha la información imperfecta accesible en la mayoría de los robots, como un simulador inexacto y una política de línea de base basada en heurística, para iniciar el entrenamiento de RL para que sea sorprendentemente eficiente en la muestra para la manipulación en el mundo real. Las tareas de capacitación adecuadamente dinámicas están diseñadas para minimizar el esfuerzo humano en el proceso de capacitación y permitir políticas significativamente más sólidas. El espacio de acción está diseñado para equilibrar de manera eficiente la manejabilidad del aprendizaje con la reactividad. El sistema está diseñado para acomodar módulos de percepción plug-and-play y adaptarse a diferentes objetos y escenarios.

cerezabot utiliza hardware genérico. Un brazo robótico ensamblado y palillos. Eso es todo. Los palillos se utilizan para la manipulación fina. El brazo robótico tampoco es perfecto. Puede proporcionar resultados de sensor inexactos de vez en cuando. A pesar de estos inconvenientes, cerezabot demuestra una reactividad sobrehumana en tareas dinámicas y de alta precisión, como usar palillos para agarrar una pelota resbaladiza que se balancea en el aire, después de solo 30 minutos de interacción en el mundo real.