Estás leyendo la publicación: Una nueva investigación de Microsoft AI muestra cómo ChatGPT puede convertir instrucciones de lenguaje natural en acciones de robot ejecutables
Los modelos de lenguaje extenso (LLM) que pueden comprender y producir un lenguaje similar al de los humanos han sido posibles gracias a desarrollos recientes en el procesamiento del lenguaje natural. Ciertos LLM se pueden perfeccionar para trabajos específicos en pocas oportunidades a través de discusiones como resultado del aprendizaje de una gran cantidad de datos. Un buen ejemplo de un LLM de este tipo es ChatGPT. La robótica es un área fascinante donde se puede emplear ChatGPT, donde se puede usar para traducir comandos de lenguaje natural en códigos ejecutables para comandar robots. La generación de programas de robots a partir de comandos de lenguaje natural es un objetivo deseable, y existen varios estudios, algunos de los cuales se basan en LLM.
Desafortunadamente, la mayoría de ellos carecen de la capacidad humana en el circuito, se crearon en un ámbito restringido o dependen del hardware. Sin embargo, la mayor parte de esta investigación se basa en conjuntos de datos particulares, por lo que es necesario recuperar datos y volver a entrenar modelos para adaptarlos o expandirlos a diversas situaciones robóticas. Un sistema robótico que se adapte fácilmente a múltiples aplicaciones o circunstancias operativas sin necesidad de una cantidad significativa de recopilación de datos o reentrenamiento del modelo sería excelente desde la perspectiva del uso práctico. El beneficio de adoptar ChatGPT para aplicaciones robóticas es que pueden comenzar con una cantidad modesta de datos de muestra para ajustar el modelo para aplicaciones particulares y hacer uso de sus capacidades de interacción y reconocimiento de lenguaje como interfaz.
Aunque el potencial de ChatGPT para aplicaciones robóticas está llamando la atención, actualmente no existe un enfoque probado para su uso en la práctica. En este estudio, los investigadores de Microsoft brindan una ilustración concreta de cómo se puede aplicar ChatGPT en una situación de pocas tomas para traducir comandos de lenguaje natural en una serie de acciones que un robot puede llevar a cabo (Fig. 1). Las indicaciones se crearon con el objetivo de cumplir con las especificaciones típicas de muchas aplicaciones del mundo real y, al mismo tiempo, se configuraron para que se adaptaran fácilmente.
Para cumplir con estos requisitos, diseñaron indicaciones de entrada para alentar a ChatGPT a 1) generar una secuencia de acciones de robot predefinidas con explicaciones en un formato JSON legible. 2) Representar el entorno operativo en un estilo formalizado. 3) Inferir y generar el estado actualizado del entorno operativo, que se puede reutilizar como la próxima entrada, lo que permite que ChatGPT opere basándose únicamente en la memoria de las últimas operaciones. Llevaron a cabo experimentos para probar la efectividad de sus indicaciones propuestas para inferir acciones apropiadas para instrucciones lingüísticas de varias etapas en varios entornos. Enumeraron los siguientes requisitos para este documento: 1) Interacción simple con sistemas de ejecución de robots o software de reconocimiento visual. 2) Idoneidad para diversos entornos domésticos. 3) La capacidad de entregar cualquier número de instrucciones en inglés sencillo mientras se reduce el efecto de la restricción del token de ChatGPT.
También señalaron que las capacidades conversacionales de ChatGPT permiten a los usuarios modificar su salida utilizando comentarios en lenguaje natural, lo cual es fundamental para crear una aplicación que sea segura y resistente al mismo tiempo que ofrece una interfaz fácil de usar. La colección de acciones del robot, la representación del entorno y los nombres de los objetos se pueden modificar fácilmente y se pueden usar como plantillas en las indicaciones sugeridas. La contribución de este documento es crear y difundir indicaciones genéricas que se adapten fácilmente a las necesidades de cada experimentador, brindando información útil a la comunidad de investigación en robótica. Son de código abierto y de libre acceso en GitHub, junto con sus instrucciones de uso.