Sabemos que los LLM pueden usar herramientas, pero ¿sabía que también pueden crear nuevas herramientas? Conozca a los LLM como fabricantes de herramientas (LATM): A…

Estás leyendo la publicación: Sabemos que los LLM pueden usar herramientas, pero ¿sabía que también pueden crear nuevas herramientas? Conozca a los LLM como fabricantes de herramientas (LATM): A…

Los modelos de lenguaje extenso (LLM, por sus siglas en inglés) se han destacado en una amplia gama de tareas de PNL y han mostrado evidencia alentadora de lograr algunas características de la inteligencia artificial general. Investigaciones recientes también han revelado la posibilidad de complementar los LLM con herramientas externas, aumentando considerablemente su poder de resolución de problemas y su eficiencia, de forma similar a como ha evolucionado la inteligencia humana. Sin embargo, la disponibilidad de las herramientas apropiadas es un factor determinante de cuán aplicables son estos procedimientos de uso de herramientas. De acuerdo con las lecciones extraídas de estos hitos, la capacidad de las personas para crear sus herramientas para resolver nuevos problemas fue un punto de inflexión significativo en el desarrollo humano.

En este estudio, investigadores de Google Deepmind, la Universidad de Princeton y la Universidad de Stanford aplican esta noción evolutiva al campo de los LLM, que está motivado por la importancia de la fabricación de herramientas para los humanos. El sistema que sugieren, denominado LLM como Tool Makers (LATM), permite a los LLM crear sus herramientas reutilizables para asumir nuevas responsabilidades. Su estrategia consta de dos fases cruciales: 1) creación de herramientas: un LLM, a menudo llamado constructor de herramientas, crea herramientas (implementadas como funciones de Python), especialmente para un trabajo específico. 2) aplicación de la herramienta: un segundo LLM, conocido como el usuario de la herramienta, que puede ser la misma persona que creó la herramienta, aplica las herramientas para atender nuevas solicitudes. Debido al diseño de dos etapas, LATM puede asignar trabajo al LLM más calificado en cada paso.

🔥 Recomendado:  9 consejos financieros para autónomos que te ayudarán a alcanzar tus objetivos

En particular, un modelo potente pero intensivo en recursos (como GPT-4) puede modelar el proceso competente de creación de herramientas. Por otro lado, un modelo liviano y asequible (como el GPT-3.5 Turbo) puede atribuirse al procedimiento de uso de herramientas, que es significativamente más fácil. Este método reduce en gran medida el costo informático promedio de manejar varios trabajos al tiempo que mejora las habilidades de resolución de problemas de los LLM. Para una capacidad particular, el procedimiento de fabricación de herramientas solo debe realizarse una vez. Por lo tanto, las herramientas producidas pueden aplicarse a varias instancias de tareas.

Este método proporciona una alternativa escalable y económica para hacer frente a problemas desafiantes. Piense en un escenario en el que un usuario le pide al LLM que organice una reunión que funcione para todos (por ejemplo, a través de intercambios de correo electrónico). Los problemas complejos de razonamiento aritmético suelen ser difíciles de resolver para máquinas ligeras como la GPT-3.5 Turbo. Sin embargo, los modelos más fuertes, como el GPT-4, pueden obtener las respuestas correctas y tener costos de inferencia significativamente más altos. Al usar un modelo potente pero costoso como fabricante de herramientas y entregárselo a un modelo rentable como usuario de la herramienta, LATM supera estos obstáculos. Una vez que se ha forjado la herramienta, el usuario puede utilizar la herramienta para realizar el trabajo de forma rápida y eficaz una vez que se ha forjado la herramienta.

Este paradigma también se puede usar para abordar juegos conocidos como el Sudoku de 24 juegos y trabajos repetitivos en otros procesos como analizar sintácticamente y analizar artículos en línea en ciertos formatos de datos o crear planes de enrutamiento que cumplan con varios requisitos especializados. También agregan el despachador, un LLM más liviano, que decide si un problema entrante se puede resolver con herramientas ya existentes o si se debe desarrollar una nueva herramienta. Esto le da a su arquitectura un grado adicional de dinámica y permite la creación y el uso de herramientas en tiempo real. Sus ensayos demuestran la eficacia de esta estrategia en una variedad de problemas difíciles de Big Bench y tareas de pensamiento complicadas en general.

🔥 Recomendado:  Cómo encontrar su número de cuenta bancaria

Los resultados demuestran que LATM puede funcionar tan bien como los modelos que requieren más recursos y tiene un precio más razonable. Las emocionantes posibilidades para una sociedad en desarrollo que utiliza herramientas generadas por LLM son posibles gracias a este enfoque único de LLM, que imita el salto evolutivo de los humanos en la generación y utilización de herramientas.