Estás leyendo la publicación: Investigadores de DeepMind crearon un modelo de lenguaje de parámetros 70B que genera declaraciones alineadas con humanos con diversos puntos de vista
Las preferencias humanas sobre cualquier tema se han vuelto diversas. Llegar a una declaración con la que la mayoría de la población está de acuerdo parece ser un desafío. Los investigadores de DeepMind, una empresa de inteligencia artificial, aceptaron este desafío, entrenaron un gran modelo de lenguaje y lo ajustaron. Deben asumir que las preferencias humanas son estáticas y homogéneas para construir el modelo.
El modelo genera declaraciones para maximizar la aprobación entre un grupo de personas con preferencias diversas. El equipo de investigación ajustó el modelo de 70 mil millones de parámetros, que fue proporcionado por miles de preguntas morales y políticas, y se proporcionaron respuestas escritas por humanos para esas preguntas. Luego se entrenó un modelo de recompensa para dar peso a las diferentes opiniones. Su mejor modelo fue capaz de lograr una tasa de preferencia de más del 65 por ciento.
El modelo fue muy sensible cuando lo probaron solo alimentando parte de las respuestas del grupo de personas entonces, el resto de la opinión de la gente, que no fue incluida, tuvo una variación significativa. Así, la contribución individual de cada consenso es igualmente importante. Hay muchas tareas complicadas de PNL como comprensión de lectura, generación de lenguaje fluido, etc., que ayudaron a formar los cimientos de este LLM.
Ha habido trabajo existente en esta área relacionado con la alineación de LLM con las preferencias humanas, pero la diferencia crucial proviene de la base de legitimidad sobre la cual supuestamente se basan las afirmaciones hechas por el modelo de lenguaje.
“¿Deberíamos eliminar todos los impuestos sobre alimentos y comestibles?”, por ejemplo, es uno de los temas que el equipo de investigación desarrolla primero como un corpus de preguntas sobre cuestiones políticas y sociales. Utilizaron 152 preguntas de muestra para crear 3500 preguntas de debate diferentes ajustando un Chinchilla LLM preentrenado de 70 mil millones de parámetros para producir las preguntas. Las preferencias humanas se recopilaron entre 3211 participantes que se dividieron en 746 grupos en el Reino Unido. Se seleccionaron diferentes conjuntos de participantes para cada nueva sesión para diversificar las preferencias y evitar la redundancia.
El equipo de investigación usó las 2922 preguntas restantes como su conjunto de entrenamiento modelo y dos conjuntos de preguntas de prueba, excluyendo cualquier pregunta que “probablemente inspire creencias extremas o lenguaje discriminatorio”. Las preguntas se incrustan mediante un codificador de oraciones universal y luego mediante el agrupamiento k-means; se dividen en 110 subtemas.
La parte de entrenamiento tenía tres pasos principales:
Paso 1: Cree candidatos de consenso y haga que las personas los califiquen.
Paso 2: Ajuste fino supervisado (SFT) para mejorar la calidad.
Paso 3: entrenar un modelo de recompensas para pronosticar preferencias.
El LLM perfeccionado podría alcanzar mejor una tasa de preferencia del 65 %. A pesar de la alta tasa de éxito del modelo, hubo algunos inconvenientes que son difíciles de evitar, como el mal uso para la persuasión. El modelo de lenguaje no se hizo para adoptar una postura específica o persuadir a otros para que compartan nuestras opiniones políticas. Sin embargo, existe la posibilidad de que los LLM se empleen para influir en las personas, lo que podría ser perjudicial en los debates públicos. Los discursos políticos ya se están volviendo cada vez más divisivos. Las contramedidas para estos posibles daños juegan un papel vital en este tema porque un sistema que es capaz de influir en las personas para que acepten un determinado punto de vista podría aprender a presentar un argumento de manera manipuladora o agresiva. El modelo de lenguaje no se ajustó para generar puntos de vista de acuerdo que sean realmente correctos. Como resultado, aunque la evaluación manual de las declaraciones de consenso reveló que en general eran precisas, existe la posibilidad de que las opiniones de consenso que genera sean inexactas o engañosas.
Por lo tanto, se vuelve muy polémico cuando se trata de un acuerdo en particular porque las preferencias entre la población no pueden ser más diversas que ahora. Es importante entender el propósito principal del modelo y no juzgar mal la declaración generada por él.