Estás leyendo la publicación: Programas LLM: el nuevo camino para ajustar modelos neuronales en situaciones complejas
Hay dos áreas principales de personalización de LLM: ajuste fino (o capacitación adicional) del modelo base preentrenado y aprendizaje en contexto. El ajuste fino requiere importantes recursos informáticos, recopilación de datos e infraestructura para hacer esto y luego alojar modelos ajustados. Mientras tanto, el aprendizaje en contexto implica compilar el mensaje correcto con ejemplos de cómo resolver el problema, como Chain-of-Thought (CoT). Sin embargo, existen algunas dificultades, como el tamaño limitado del texto que se puede enviar al modelo y el hecho de que en un indicador complejo de varias pasadas, los pasos pueden interferir entre sí y el modelo puede distraerse con algo. que no debe distraerse en este momento. Los autores proponen un camino alternativo llamado Programas LLMque puede considerarse como el desarrollo del aprendizaje en contexto.
LLM está integrado en el programa (en un lenguaje de programación convencional, por ejemplo, en Python). Este código externo se encarga de almacenar el estado y mantener el modelo paso a paso. Tiene algunas ventajas importantes: los lenguajes de programación están adaptados para esto, el tamaño del contexto disponible crece y los pasos no interfieren entre sí. La clave para resolver un problema a través del programa LLM es la capacidad de descomponer la solución de un problema en una secuencia de pasos más simples. Este enfoque difiere de trabajos anteriores, donde el modelo utilizaba herramientas externas como calculadoras o intérpretes de código para mantener el estado. Este enfoque es bueno porque es posible describir una tarea compleja y extensa de esta manera, lo que facilita la prueba, la depuración y la evaluación de la calidad.
Además, no hay interferencia entre los pasos, lo que facilita el trabajo con LLM. Los sistemas de preguntas y respuestas tampoco son nuevos; han existido mucho antes que los LLM. ¿Cómo se resuelve ahora la tarea de responder preguntas?
Los sitios se actualizan con frecuencia, por lo que un modelo congelado no es una opción; rápidamente quedará obsoleto y no podrá responder preguntas sobre nuevos productos. El reentrenamiento constante del modelo para cada actualización no es una opción realista: es costoso y requiere mucho tiempo. En cambio, las páginas de un sitio web generalmente se indexan, se colocan en algún tipo de base de datos y, a menudo, se vectorizan. A pedido del usuario, los documentos relevantes se extraen y se envían como contexto a LLM.
En tal paradigma, el problema se resuelve naturalmente a través del Programa LLM. Como beneficio adicional, es posible implementar una lógica de múltiples pasos más compleja que no encajaría completamente en el contexto.
Probado en el Conjunto de datos de StrategyQA que contiene problemas de clasificación binaria, cuya solución implica un razonamiento de múltiples vías. Como “¿La luz del sol penetra en el lugar más profundo del Mar Negro?”. Para responder, debe encontrar la profundidad máxima (2 km) y qué tan profundo penetra la luz en el agua (1 km), y luego sacar una conclusión. Echemos un vistazo a otra pregunta de ejemplo: “¿Usó Aristóteles una computadora portátil?” Esta pregunta no es tan sencilla y no sigue la secuencia de pasos de razonamiento explícitamente como “¿Estaba vivo Aristóteles cuando se inventó la computadora portátil?” hace. El conjunto de datos se centra en preguntas en las que dicha secuencia está implícita. Solo hay 2.780 preguntas en el conjunto de datos, de las cuales solo 918 tienen párrafos con evidencia que refuerzan todos los pasos del razonamiento. En el trabajo actual, se limita a este subconjunto; de lo contrario, tendríamos que depender de que LLM aprenda algunos hechos durante el entrenamiento previo.
El OPT-175B LLM, por defecto, no es muy bueno para seguir instrucciones; no tuvo que afinar instrucciones ni sobre datos conversacionales. Para resolver el problema de pregunta-respuesta sustentada en evidencia, se divide en una etapa de filtrado de datos y una etapa de búsqueda en árbol.
En la etapa de filtrado, al tener una pregunta, los desarrolladores revisan todos los párrafos y seleccionan los más relevantes. Por ejemplo, con un mensaje breve, pídale al LLM que responda (sí/no) si un párrafo determinado es relevante para la pregunta formulada. Probado en un subconjunto 300 de StrategyQA, donde cada pregunta se emparejó con un párrafo, relevante o no, 50/50. OPT-175B y text-davinci-002 no tienen una calidad mucho mayor que una línea de base aleatoria: hasta un 56 %. Cuanto más avanzado 11B Tk-Instrucción no es mucho mejor en 61.6%.
Debido a la mala calidad de este enfoque, se elaboró una alternativa que considera el log-verosimilitud negativo promedio (NLL) de la pregunta en combinación con el párrafo de texto anterior y luego clasifica los resultados. Evaluado en un conjunto de datos donde para cada pregunta había 100 párrafos, y solo uno era relevante (por lo que las conjeturas aleatorias dan 1%). Obtuvimos una precisión entre los 1 primeros con un 79 % y entre los 5 primeros con un 93 %. Para este cálculo, generalmente necesita acceso al modelo en sí, lo que no siempre se hace en la API.
Luego viene la etapa de construcción de cadenas de producción. Esto se hace a través de una búsqueda a través de un árbol donde la pregunta es la raíz, y en cada nivel, hay muchos párrafos con posibles evidencias que se utilizan como contexto para generar el siguiente paso. Cada camino a través del árbol es una cadena de salida potencial. No es realista sacar una conclusión sobre todas las cadenas posibles, por lo que se clasifican todas las cadenas disponibles y se expande la cadena con la clasificación más alta. Esta es una variación de la búsqueda de haz. El proceso se detiene cuando se realiza una respuesta o se ha superado el número máximo de pasos permitido.
Los detalles más importantes son las dos estrategias de clasificación probadas para el paso de búsqueda del árbol. La primera estrategia se basa en el NLL promedio de toda la cadena, mientras que la segunda estrategia analiza la diferencia promedio en NLL con y sin párrafo (P), con y sin pregunta (Q). En las 918 preguntas disponibles de StrategyQA, este enfoque mejora significativamente la calidad de la respuesta en relación con la línea de base con CoT (60 %); ambas opciones de búsqueda dan alrededor del 66% (la estrategia con un delta ligeramente superior). Si se envían hechos de oro, la calidad se vuelve alrededor del 81%, que es el límite superior para OPT. Darklang parece estar yendo a alguna parte, pero de una manera ligeramente diferente.
El artículo está basado en Telegram. correo.
Lea más sobre la IA: