Una nueva investigación de IA de Microsoft presenta un estudio experimental sobre el uso de ChatGPT de OpenAI para aplicaciones de robótica

Estás leyendo la publicación: Una nueva investigación de IA de Microsoft presenta un estudio experimental sobre el uso de ChatGPT de OpenAI para aplicaciones de robótica

Los grandes modelos de lenguaje (LLM) como BERT, GPT-3 y Codex han sido posibles gracias al tremendo progreso en NLP, transformando varios campos. Estos modelos se han desempeñado excepcionalmente bien en diversas aplicaciones, incluida la producción de texto, la traducción automática y la síntesis de código. OpenAI ChatGPT, un modelo de texto generativo previamente entrenado y luego refinado con comentarios humanos, se agregó a este conjunto de modelos no hace mucho tiempo. ChatGPT proporciona excelentes capacidades de interacción a través del diálogo, combinando la creación de texto con la síntesis de código, a diferencia de los modelos anteriores, que en su mayoría funcionan con un solo aviso.

ChatGPT para robótica

A diferencia de las aplicaciones de solo texto, los sistemas robóticos deben comprender la física del mundo real, interpretar su entorno y realizar acciones físicas. Interactuar con los usuarios para comprender y ejecutar órdenes en formas físicamente posibles que tengan sentido en el mundo real requiere un modelo de robótica generativa con un alto nivel de conocimiento de sentido común y un modelo de mundo complejo. Estos problemas van más allá de lo previsto inicialmente para los modelos de lenguaje, que debían descifrar las palabras de la página y convertirlas en un plan de acción.

ChatGPT puede adaptarse a varias manifestaciones físicas, participar en un razonamiento de circuito cerrado a través del diálogo y resolver una amplia gama de problemas de robótica sin posibilidad de disparo. Como la robótica es un tema bien establecido, varias bibliotecas de caja negra y de código abierto están disponibles para su funcionalidad fundamental en los dominios de percepción y acción (por ejemplo, detección y segmentación de objetos, mapeo, planificación de movimiento, controles y agarre). Para el razonamiento y la ejecución del robot, el LLM puede emplear estas rutinas predefinidas si se proporciona el aviso correcto. El nombre de una interfaz de programación de aplicaciones (API) debe reflejar con precisión el propósito y la operación general de la función. Los términos deben ser lo más claros posible para que el LLM explique los vínculos funcionales entre las API y brinde el resultado esperado.

🔥 Recomendado:  Investigadores de la Universidad Northwestern utilizaron el aprendizaje automático para identificar patrones de habla en niños con autismo que coincidían entre el inglés y el cantonés

Uso de ChatGPT para aplicación de robótica – representado por Microsoft

Los investigadores del Grupo de Robótica y Sistemas Autónomos de Microsoft demostraron la viabilidad de ChatGPT de OpenAI para aplicaciones de robótica, demostrando cómo crear avisos e instruir a ChatGPT para que use ciertas bibliotecas robóticas para programar el trabajo. Según los expertos de Microsoft, la robótica moderna depende de un sistema de circuito cerrado en el que el ingeniero codifica la tarea, supervisa el comportamiento del robot y ajusta la programación del robot en consecuencia.

ChatGPT, según la visión de Microsoft, puede usarse para convertir una descripción del trabajo en lenguaje humano en código legible por robot. Esto permitiría que un usuario no técnico (en el circuito) tome el lugar del ingeniero (en el circuito) en el proceso, siendo las únicas responsabilidades de este último proporcionar la descripción original de la tarea en lenguaje humano, observar el robot y proporcionar comentarios sobre el comportamiento del robot en lenguaje humano, que ChatGPT también convertiría en código para mejorar el comportamiento.

Utilizando una metodología experimental, los investigadores de Microsoft desarrollaron una variedad de casos de uso, como la planificación de trabajos de tiro cero para guiar un dron para investigar el contenido de un estante, la manipulación del brazo robótico y la identificación de objetos y búsquedas a distancia basadas en API.

Método ChatGPT de Microsoft para uso en robótica

Para hacer que ChatGPT sea práctico para las aplicaciones robóticas, Microsoft se ha concentrado en tres áreas principales de investigación: el diseño de indicaciones utilizadas para dirigir ChatGPT, el uso de API existentes y la provisión de comentarios humanos a través de texto. Estos tres componentes forman la columna vertebral de una estrategia para emplear ChatGPT en robótica.

  1. El usuario especifica una colección de interfaces de programación de aplicaciones (API) de alto nivel o bibliotecas de funciones que debe emplear ChatGPT.
  2. El usuario describe el resultado deseado del trabajo en términos de interfaces de programación de aplicaciones (API) o funciones accesibles.
  3. Por fin, el usuario ofrece información a ChatGPT después de evaluar su código con un simulador o viéndolo directamente.
🔥 Recomendado:  Microsoft Teams ahora puede organizar reuniones con hasta 20.000 personas

Si el usuario está satisfecho con los resultados, el código resultante puede usarse para instruir a un robot.

Todas las preguntas e interacciones que el equipo de Microsoft usó para su estudio se pueden encontrar en una nueva plataforma colaborativa de código abierto que Microsoft está lanzando al público. Para poner a prueba los algoritmos generados por ChatGPT, quieren incorporar interfaces y simulaciones robóticas.