Enseñar el pasado a partir de los errores del futuro: esta técnica de IA hace que los modelos de lenguaje grandes sean mejores seguidores de instrucción

Estás leyendo la publicación: Enseñar el pasado a partir de los errores del futuro: esta técnica de IA hace que los modelos de lenguaje grandes sean mejores seguidores de instrucción

Los modelos de lenguaje extenso (LLM, por sus siglas en inglés) han sido noticia en el mundo de la tecnología en los últimos años. Han revolucionado la forma en que nos comunicamos e interactuamos con la tecnología. Estos modelos están entrenados en cantidades masivas de datos y utilizan algoritmos complejos para generar respuestas similares a las humanas. ChatGPT, el LLM más famoso en la actualidad, puede brindarle consejos sobre asuntos personales, tener conversaciones interesantes y divertidas, ayudarlo con sus problemas de codificación, recomendar música según su estado de ánimo, etc.

Si bien los LLM han demostrado habilidades impresionantes, también presentan una variedad de desafíos. Una de las mayores preocupaciones está relacionada con las implicaciones éticas de los LLM. Son capaces de generar contenido que puede ser difícil de distinguir de uno escrito por humanos, y esta capacidad plantea preocupaciones sobre cómo podrían usarse para generar información falsa. Los LLM pueden hacerlo incluso si no tienen la intención de hacerlo, y este es un tema importante.

Los LLM pueden inventar hechos de manera muy convincente. A menos que esté realmente familiarizado con el dominio, podría ser difícil detectarlo. Por otro lado, pueden generar texto tóxico o simplemente no seguir las instrucciones como se supone que deben hacerlo. Tales comportamientos no son deseables y ha habido un esfuerzo serio para prevenir esos problemas.

Una forma común de abordar este problema es mediante el uso de algoritmos de aprendizaje por refuerzo (RL) para calificar qué tan bien se alinea con el resultado deseado. Si alguna vez ha oído hablar del término “aprendizaje de refuerzo con retroalimentación humana (RLHF)”, esto es de lo que estamos hablando. RLHF se aplicó con éxito en ChatGPT.

🔥 Recomendado:  Secretos probados para campañas de correo electrónico que convierten

Sin embargo, la mayoría de las soluciones existentes utilizan un método complejo llamado optimización de políticas proximales (PPO) o solo se enfocan en los resultados exitosos e ignoran los casos de falla. PPO requiere mucha capacitación y ajuste cuidadoso, mientras que el enfoque de solo éxito no es muy eficiente con los datos.

¿Qué pasaría si tuviéramos una manera de afinar un enfoque que también pudiera aprender de los casos de falla? En lugar de solo enfocarse en casos de uso exitosos, hacer esto podría mejorar la confiabilidad del LLM. Es hora de cumplir con el reetiquetado de instrucciones retrospectivas (HIR).

HIR es un algoritmo novedoso propuesto para mejorar los LLM y alinearlos mejor con las instrucciones humanas. Los autores observaron que el problema de la alineación es en realidad un caso específico de RL condicionado por objetivos. Es solo un caso único con un espacio de portería aumentado. Por lo tanto, el problema se puede simplificar así: el objetivo es la instrucción dada, la política es el modelo de lenguaje y la acción es generar una secuencia correcta de tokens de palabras.

Para resolver este problema de alineación, proponen un algoritmo de reetiquetado retrospectivo de dos fases que utiliza pares de salida de instrucción exitosos y fallidos. Retrospectiva significa comprensión o realización de algo después de que ha sucedido; es la habilidad de mirar hacia atrás a eventos pasados ​​y percibirlos de una manera diferente.

HIR alterna entre una fase de muestreo en línea y una fase de aprendizaje fuera de línea. En la fase en línea, genera un conjunto de datos de pares de instrucción-salida, que luego se utilizan para volver a etiquetar las instrucciones de cada par y realizar un aprendizaje supervisado estándar en la fase de aprendizaje fuera de línea. Además, se adopta una estrategia de reetiquetado para utilizar casos de falla mediante el uso de etiquetas contrastivas de instrucciones.

🔥 Recomendado:  Las 10 mejores VPN para Textnow en 2023 (gratis y de pago)

HIR se evalúa ampliamente en diversas tareas de razonamiento LLM utilizando modelos base FLAN-T5. Supera significativamente a los modelos de referencia y puede lograr un rendimiento comparable al de sus versiones ajustadas para tareas específicas.

HIR es una nueva perspectiva de aprendizaje a partir de la retroalimentación y conecta el problema de alineación de los LLM con la RL condicionada por objetivos. Hace que los LLM sean más efectivos con los datos y no requiere ninguna canalización de capacitación de RL adicional. Al final, obtenemos un enfoque prometedor para mejorar la alineación de LLM con instrucciones humanas.

Revisar la Papel y Github. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 15k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools