Conozca LETI: un paradigma de ajuste fino del nuevo modelo de lenguaje (LM) que explora el potencial de LM para aprender de las interacciones textuales

Estás leyendo la publicación: Conozca LETI: un paradigma de ajuste fino del nuevo modelo de lenguaje (LM) que explora el potencial de LM para aprender de las interacciones textuales

Con la creciente popularidad de los modelos de lenguaje grande (LLM), se introducen nuevas investigaciones y avances casi todos los días. Utilizando tecnologías de aprendizaje profundo y el poder de la inteligencia artificial, los LLM evolucionan y se extienden continuamente en todos los dominios. Los LLM están capacitados en cantidades masivas de texto sin procesar y, para mejorar su rendimiento, estos modelos se ajustan con precisión. Durante el proceso de ajuste, los LLM reciben capacitación en tareas particulares utilizando señales de capacitación directa que miden su desempeño, como la precisión de la clasificación, la respuesta a preguntas, el resumen de documentos, etc.

Recientemente, se ha introducido un nuevo paradigma de ajuste llamado LETI (Learn from Textual Interactions), que se sumerge en el potencial que los modelos de lenguaje extenso pueden aprender de las interacciones y comentarios textuales. LETI permite que los modelos de lenguaje comprendan no solo si estaban equivocados, sino también por qué lo estaban. Este enfoque permite a los LLM superar las limitaciones de aprender únicamente a partir de etiquetas y recompensas escalares.

El equipo de investigadores detrás del desarrollo de LETI ha mencionado cómo este enfoque proporciona retroalimentación textual al modelo de lenguaje. Ayuda a verificar la corrección de los resultados del modelo con la ayuda de etiquetas binarias e identifica y explica los errores en su código generado. El paradigma LETI es como el proceso iterativo de desarrollo de software, que implica que un desarrollador escriba un programa, lo pruebe y lo mejore en función de los comentarios. De manera similar, LETI afina el LLM proporcionando comentarios textuales que señalan errores y fallas.

🔥 Recomendado:  10 servicios de alojamiento web probados y confiables para 2023

Durante el proceso de ajuste, se solicita al modelo una descripción del problema en lenguaje natural, seguida de la cual genera un conjunto de soluciones. Luego, un evaluador de soluciones evalúa estas soluciones utilizando un conjunto de casos de prueba. Los investigadores usaron un intérprete de Python para usar los mensajes de error y apilar los rastros obtenidos del código generado como fuente de comentarios textuales. El evaluador de soluciones es ese intérprete de Python.

Los datos de entrenamiento utilizados para ajustar el modelo constan de tres componentes: instrucciones en lenguaje natural, programas generados por LM y retroalimentación textual. Cuando el programa generado no puede proporcionar una solución, se proporciona retroalimentación al LLM. De lo contrario, se proporciona un token de recompensa al modelo en forma de retroalimentación binaria para alentarlo a generar una solución precisa. La retroalimentación textual generada se utiliza en el proceso de ajuste fino del LM, conocido como ajuste fino condicionado por retroalimentación.

Para el proceso de evaluación, los investigadores han utilizado un conjunto de datos de tareas de generación de código llamados conjuntos de datos MBPP (Multiple Big Programming Problems). Los resultados han demostrado que LETI mejora significativamente el rendimiento de dos LM base de diferentes escalas en el conjunto de datos MBPP sin requerir resultados reales para el entrenamiento. En el conjunto de datos HumanEval, LETI logra un rendimiento similar o mejor que los LM base en problemas ocultos. Además, los investigadores han descubierto que, en comparación con la retroalimentación binaria, el uso de retroalimentación textual permite que el modelo logre el mismo rendimiento pero con menos pasos de gradiente.

🔥 Recomendado:  Código de oferta de Questrade 2023 (reembolso de $50 y oferta de $10,000)

En conclusión, LETI es un excelente enfoque para el ajuste que mejora los modelos de lenguaje mediante el uso de comentarios textuales detallados. Les permite aprender de los errores y mejorar el rendimiento en tareas como la generación de código. LETI parece prometedor.