Estás leyendo la publicación: Investigadores de Microsoft presentan Reprompting: un algoritmo de muestreo iterativo que busca las recetas de la cadena de pensamiento (CoT) para una tarea dada sin intervención humana
En los últimos tiempos, los modelos de lenguaje grande (LLM, por sus siglas en inglés) han evolucionado y transformado el procesamiento del lenguaje natural con sus técnicas de indicaciones de pocas tomas. Estos modelos han ampliado su usabilidad en casi todos los dominios, que van desde la traducción automática, la comprensión del lenguaje natural, la finalización de texto, el análisis de sentimientos, el reconocimiento de voz, etc. Con el enfoque de sugerencias de pocas tomas, los LLM reciben algunos ejemplos de una tarea en particular, junto con algunas instrucciones en lenguaje natural y su uso; son capaces de adaptarse y aprender a realizar la tarea correctamente. Las tareas que requieren pasos iterativos y la propagación de restricciones vienen con muchas limitaciones cuando se utilizan estas técnicas de solicitud, para superar las cuales se ha introducido un nuevo enfoque.
Un equipo de investigadores de Microsoft Research, Redmond, EE. UU., presentó recientemente un nuevo método llamado Reprompting, que aborda todas las limitaciones que acompañan a las técnicas de solicitud. Este enfoque busca automáticamente algunos indicadores de cadena de pensamiento (CoT) útiles y efectivos. Las indicaciones de cadena de pensamientos ayudan a mejorar la capacidad de razonamiento de los modelos de lenguaje grandes y les ayudan a realizar tareas de razonamiento complejas. Para esto, se proporcionan algunas cadenas de demostraciones de pensamiento como ejemplos durante las indicaciones. Reprompting encuentra indicaciones de CoT de manera muy eficiente sin ninguna participación humana.
Los investigadores han utilizado un enfoque de muestreo iterativo conocido como muestreo de Gibbs en el algoritmo Reprompting. Enmarca el problema como un muestreo de una distribución conjunta de recetas CoT. Dado que la distribución es difícil de caracterizar directamente, se ha utilizado el muestreo de Gibbs como método de aproximación. Este método de muestreo ayuda a determinar las mejores instrucciones probando diferentes y decidiendo cuál funciona mejor.
El algoritmo de reprogramación comienza con una muestra de recetas iniciales de CoT con la ayuda de indicaciones de disparo cero, donde no se proporciona información de indicación. Las indicaciones de disparo cero permiten que un LLM genere respuestas de tareas sin capacitación previa. Luego, el algoritmo muestra de forma iterativa nuevas recetas utilizando soluciones previamente muestreadas como avisos principales, y estas nuevas recetas se usan para resolver otros problemas de entrenamiento, con el objetivo de encontrar un conjunto de avisos que compartan avisos similares de CoT.
El algoritmo ha sido evaluado en las cinco tareas Big-Bench Hard (BBH) que requieren un razonamiento de varios pasos. BBH se enfoca en tareas que se cree que están más allá de las capacidades y potencialidades de los modelos lingüísticos actuales. ChatGPT e InstructGPT se han utilizado como LLM para la evaluación del algoritmo. Tras la evaluación, se ha demostrado que el reprompting funciona mejor que las técnicas de indicación de CdT de cero intentos, pocos intentos y escritas por humanos.
La repetición también mostró un potencial significativo en la combinación de modelos mediante el uso de diferentes LLM para inicializar y probar nuevas recetas. Puede ayudar en la transferencia de conocimiento de un modelo más fuerte a un modelo más débil, lo que da como resultado un rendimiento notablemente mejor que muestra el modelo más débil. El reprompting funcionó mejor que el CoT escrito por humanos en las tareas de BBH hasta en 17 puntos. Los investigadores han mencionado que las recetas de CoT que funcionan bien en un modelo pueden no funcionar bien en otro, destacando la necesidad de optimizar CoT para que cada modelo tenga comparaciones más justas.
En resumen, el algoritmo de Reprompting es un excelente enfoque automatizado para encontrar indicaciones de CoT efectivas para LLM sin intervención humana. Es un enfoque valioso para abordar las limitaciones de los métodos existentes y lograr un rendimiento superior en tareas que requieren un razonamiento de varios pasos.