¿Realmente necesita el aprendizaje por refuerzo (RL) en RLHF? Una nueva investigación de Stanford propone DPO (optimización de preferencia directa): un paradigma de entrenamiento simple para entrenar…

Estás leyendo la publicación: ¿Realmente necesita el aprendizaje por refuerzo (RL) en RLHF? Una nueva investigación de Stanford propone DPO (optimización de preferencia directa): un paradigma de entrenamiento simple para entrenar…

Cuando se entrenan en conjuntos de datos masivos, los enormes LM no supervisados ​​adquieren poderes que sorprenden incluso a sus creadores. Estos modelos, sin embargo, están entrenados en información producida por personas con una diversa gama de motivaciones, objetivos y habilidades. No todas estas ambiciones y habilidades pueden ser emuladas. Es importante seleccionar cuidadosamente las respuestas y el comportamiento deseados del modelo de su vasta reserva de información y habilidades para crear sistemas confiables, efectivos y manejables.

Sin utilizar modelos de recompensa explícitos o aprendizaje por refuerzo, los investigadores de la Universidad de Stanford y CZ demuestran cómo optimizar un modelo de lenguaje para adaptarse a los gustos humanos. Su trabajo muestra que el objetivo basado en RL empleado por los enfoques actuales se puede optimizar exactamente con un objetivo de entropía cruzada binaria simple, simplificando considerablemente el proceso de aprendizaje de preferencias y demostrando cómo se puede hacer esto en la práctica.

Proponen Direct Preference Optimization (DPO). Este nuevo algoritmo logra implícitamente el mismo objetivo que los algoritmos RLHF existentes (maximización de la recompensa con una restricción de divergencia KL), pero es más fácil de construir y entrenar. Si bien la actualización de DPO aumenta intuitivamente la relación de registro de respuestas preferidas a las no preferidas, también incluye un peso significativo dinámico por ejemplo que evita que el modelo se degrade.

Al igual que otros algoritmos, DPO evalúa la consistencia de una función de recompensa con datos de preferencia empírica utilizando un modelo de preferencia teórica. Mientras que los enfoques convencionales definen una pérdida de preferencia usando el modelo de preferencia para entrenar un modelo de recompensa, DPO entrena una política que maximiza el modelo de recompensa aprendido usando un cambio variable. Por lo tanto, DPO puede optimizar una política con un objetivo de entropía cruzada binaria simple dado un conjunto de datos de preferencias humanas sobre las respuestas del modelo sin aprender explícitamente una función de recompensa o tomar muestras de la política durante el entrenamiento.

🔥 Recomendado:  Según esta nueva investigación de IA en el MIT, los modelos de aprendizaje automático entrenados con datos sintéticos pueden superar a los modelos entrenados con datos reales en algunos...

Los hallazgos del trabajo demuestran que DPO es tan efectivo como los enfoques de vanguardia, como RLHF basado en PPO, para el aprendizaje basado en preferencias en varias tareas, incluida la modulación de sentimientos, resúmenes y diálogos, con modelos de lenguaje que contienen hasta parámetros 6B. El 58 % de las personas prefieren los resúmenes de DPO a los resúmenes de PPO (evaluaciones humanas), y el 61 % prefiere los resúmenes de DPO a las evaluaciones humanas en el conjunto de pruebas. En Anthropic HH, el 60% del tiempo, se prefieren las respuestas de un solo turno de los DPO a las terminaciones selectivas.

El equipo afirma que DPO tiene muchos usos potenciales más allá de solo entrenar modelos de lenguaje basados ​​en preferencias humanas. Por ejemplo, puede entrenar modelos generativos en varias modalidades.

Las evaluaciones del modelo propuesto llegan hasta los parámetros 6B, pero el equipo cree que el trabajo adicional debería explorar la escala de DPO a modelos de última generación con órdenes de magnitud de más datos. Los investigadores también descubrieron que el indicador afecta las tasas de ganancias calculadas de GPT -4. En el futuro, planean investigar los medios más efectivos para obtener opiniones de expertos de las máquinas.