Stanford AI publica el conjunto de datos de preferencias humanas de Stanford (SHP): una colección de 385 000 preferencias humanas colectivas que ocurren naturalmente sobre el texto

Estás leyendo la publicación: Stanford AI publica el conjunto de datos de preferencias humanas de Stanford (SHP): una colección de 385 000 preferencias humanas colectivas que ocurren naturalmente sobre el texto

Los modelos de aprendizaje automático y aprendizaje profundo son omnipresentes en casi todos los sectores en la actualidad. La mejora del modelo es uno de los principales obstáculos en estos proyectos de ML y DL en varias industrias. El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es una técnica que utiliza la retroalimentación humana para mejorar un modelo de lenguaje utilizando técnicas de aprendizaje por refuerzo directamente. Los modelos de lenguaje ahora pueden comenzar a hacer coincidir valores humanos complicados con un modelo entrenado en un gran corpus de datos de texto gracias a RLHF. La retroalimentación humana se usa para entrenar modelos como ChatGPT. Sin embargo, adquirir estos datos es bastante costoso.

Una nueva investigación de Stanford lanzó Stanford Human Preferences (SHP), un conjunto de datos que contiene las preferencias agregadas de 385 000 personas para obtener respuestas a consultas e instrucciones en 18 categorías distintas, que van desde cocina hasta asistencia legal en Reddit. Las preferencias de SHP representan la utilidad de una respuesta sobre otra dado un contexto determinado y dos respuestas alternativas.

Cada escenario consta de una pregunta/instrucción publicada en Reddit y dos comentarios de nivel superior, de los cuales uno es más popular que el otro (colectivamente). El algoritmo SHP aprovecha que un comentario se favorece más si tiene una mejor puntuación, aunque haya sido escrito más tarde. Como la puntuación más alta de A podría haber sido el efecto de una mayor visibilidad, no podemos llegar a esta conclusión a menos que A se haya escrito antes que B.

🔥 Recomendado:  El Samsung Galaxy S23 FE podría perderse una característica importante del S23 Ultra

Este trabajo tiene dos distribuciones para trabajar aquí; los datos en SHP ocurren naturalmente y están escritos por humanos, mientras que las respuestas en HH-RLHF están escritas por máquinas.

El equipo también publicó varios modelos de preferencia, o SteamSHP, que están calibrados para determinar qué respuesta es más beneficiosa. Los increíbles modelos FLAN-T5 sirvieron de inspiración para los modelos preferenciales SteamSHP. Están listos para usar para el modelado de recompensas RLHF y la evaluación del procesamiento del lenguaje natural (NLP). Mejor en temas como asesoramiento legal (80,7 %) que en filosofía (69,1 %), SteamSHP-XL predice etiquetas de preferencia humana con un 72,8 % de precisión en todas las disciplinas.

Como los SteamSHP se pueden utilizar como modelos de recompensas escalares, la combinación de SHP y SteamSHP será extremadamente útil en RLHF. El equipo cree que SHP será útil para determinar qué preferencias humanas son las más efectivas para desarrollar y perfeccionar un modelo de preferencia. En última instancia, esto podría resultar en que la recopilación de datos adicionales de preferencias humanas sea mucho más rápida y menos costosa. Por ejemplo, mejorar el rendimiento del modelo de preferencia en preferencias mayores supuestamente mejoró el rendimiento porque contienen más información utilizable por V sobre la etiqueta de preferencia y ofrecen una señal más fuerte.