Estás leyendo la publicación: Revolucionando la resolución de problemas matemáticos: el enfoque innovador de OpenAI que aprovecha la supervisión de procesos sobre la supervisión de resultados
Los últimos años han visto avances masivos en la capacidad de los modelos de lenguaje masivo para llevar a cabo un razonamiento complicado de varios pasos. Los modelos modernos, a pesar de su sofisticación, continúan cometiendo errores sin sentido. Se pueden utilizar dos tipos de supervisión para entrenar modelos más precisos: supervisión de resultados, que proporciona información sobre el resultado final, y supervisión de procesos, que proporciona información sobre cada etapa intermedia del proceso de razonamiento. La inteligencia general artificial alineada (AGI) requiere que se reduzcan las alucinaciones. Tales alucinaciones pueden resultar desastrosas en campos donde los problemas complejos requieren múltiples líneas de razonamiento. Mejorar la capacidad de razonar depende de reconocer y controlar las alucinaciones.
Una de esas estrategias es entrenar modelos de recompensa para distinguir entre buenos y malos resultados. Posteriormente, el modelo de recompensa puede integrarse en una canalización de RL o utilizarse para una búsqueda de RS. Si bien es efectivo, el sistema resultante depende de la precisión del modelo de recompensa para funcionar.
OpenAI utiliza una técnica llamada Supervisión de Procesos para su entrenamiento. La supervisión de procesos permite que el modelo siga asociaciones aprobadas por humanos, mientras que la supervisión de resultados solo recompensa la corrección del resultado final. Los resultados del pensamiento en Cadena de Pensamiento son más confiables.
La supervisión del proceso tiene mucho a su favor. Da respuestas más específicas ya que señala dónde se han producido los problemas. También tiene varios beneficios relacionados con la alineación de la IA, que incluyen ser más simple de entender para las personas y brindar recompensas más directas a los modelos que se adhieren a una línea de razonamiento aprobada por humanos. A diferencia de los modelos de recompensa supervisados por procesos (PRM), que obtienen retroalimentación en cada etapa del proceso de razonamiento del modelo, los modelos de recompensa supervisados por resultados (ORM) se entrenan utilizando solo el resultado final del proceso de razonamiento del modelo. Los modelos entrenados usando la supervisión de resultados frecuentemente explotan el razonamiento falaz dentro del razonamiento lógico para llegar al resultado final correcto. Se ha demostrado que la supervisión de procesos puede reducir esta conducta desadaptada.
Uesato descubrió que, a pesar de estos beneficios, la supervisión de resultados y procesos conducía a un rendimiento final similar en matemáticas elementales. La evaluación en profundidad de la supervisión de resultados frente a la de procesos difiere principalmente en tres aspectos:
- Entrene y pruebe en el conjunto de datos MATEMÁTICOS más difícil.
- Emplear un modelo base más capaz.
- Utilice sustancialmente más comentarios humanos.
Estas son algunas de las contribuciones más significativas realizadas por los investigadores:
Los investigadores encuentran que la supervisión de procesos puede proporcionar modelos de recompensa más confiables durante el entrenamiento que la supervisión de resultados. El PRM de última generación puede resolver el 78,2 % de una muestra de problemas del conjunto de pruebas MATH.
Demuestran la capacidad de un modelo de gran recompensa para ejecutar eficazmente ablaciones de recopilación de datos a gran escala y para imitar con éxito la supervisión humana para modelos de recompensa más pequeños.
También muestran que la eficiencia de datos de la supervisión de procesos aumenta 2,6 veces debido al aprendizaje activo.
Para fomentar más estudios en esta área, los investigadores están poniendo a disposición todo el conjunto de datos de supervisión de procesos PRM800K.
Siguiendo una metodología similar a la de Uesato, los investigadores analizan las diferencias entre la supervisión de resultados y la de procesos. La supervisión de resultados sin humanos es posible ya que todas las soluciones a las preguntas en el conjunto de datos MATH se pueden verificar automáticamente. La supervisión de procesos, por otro lado, no se puede automatizar fácilmente.
Gestión basada en salida vs. entrada
El enfoque básico es similar, pero hay tres distinciones clave. Los investigadores comienzan recopilando el conjunto de datos PRM800K y ejecutando las pruebas masivas utilizando un modelo más potente. Tanto la supervisión de resultados como la de procesos arrojaron aproximadamente las mismas tasas de error para la solución final, pero la supervisión de procesos lo hizo con menos observaciones. De acuerdo con los hallazgos de Uesato, el desempeño resultante es equivalente incluso cuando tanto el proceso como el resultado están fuertemente supervisados. Incluso cuando se evalúa exclusivamente en términos de resultados, la supervisión de procesos escala mejor que la supervisión de resultados.
Los métodos de alineación (Métodos de alineación) se utilizan en inteligencia artificial para alinear las acciones de los sistemas de IA con los valores humanos, haciéndolos más seguros y más consistentes con esos valores. Según los autores del estudio, el precio de alineación afectará el uso generalizado de la técnica de alineación al ejercer presión sobre el despliegue del modelo. En última instancia, esto podría mejorar el rendimiento de los sistemas. El término “Impuesto de alineación” se utiliza para describir esta consecuencia no deseada.
En un golpe de suerte, los resultados experimentales muestran que el costo de alineación de la supervisión de procesos es negativo en matemáticas, lo que podría conducir a su adopción generalizada. Aunque no está claro para los investigadores hasta qué punto se puede aplicar su trabajo fuera de las matemáticas, el seguimiento del proceso de investigación es crucial para el trabajo en otras materias. Cuando estos hallazgos se aplican ampliamente, la supervisión de procesos mejora en términos de efectividad y consistencia del método.
En el razonamiento matemático, los investigadores han demostrado que la supervisión de procesos se puede utilizar para entrenar modelos de recompensa mucho más confiables que la supervisión de resultados. Los investigadores también demostraron que el aprendizaje activo podría reducir el costo de la recopilación de datos humanos al priorizar qué modelos completos deben presentarse a los humanos para su evaluación. Los investigadores anticipan que al eliminar esta importante barrera de entrada, la disponibilidad de PRM800K, el conjunto completo de datos de retroalimentación humana que se utiliza para entrenar el modelo de recompensa de última generación, estimulará más estudios sobre la alineación de modelos de lenguaje extenso. Los investigadores creen que la supervisión de procesos está poco explorada en la actualidad. Por lo tanto, los investigadores esperan con ansias futuras investigaciones que examinen la generalización de estos métodos con mayor detalle.