Estás leyendo la publicación: Conozca OpenAssistant: un modelo de chat de código abierto que consiste en un corpus de conversación de estilo asistente generado por humanos y anotado por humanos de ~161K, que incluye 35 idiomas diferentes
Los últimos años han visto un notable desarrollo de la inteligencia artificial (IA), especialmente en el procesamiento del lenguaje natural. Una fórmula simple está en el corazón de los avances más significativos:
- Tome una arquitectura básica basada en transformadores.
- Escale la profundidad y el ancho de los parámetros.
- Use un conjunto de entrenamiento mucho más grande.
A pesar de su capacidad demostrable a nivel humano para ajustar datos de entrenamiento y generalizar según su propósito programado, el público en general debe ser más activo en la aceptación de modelos. La causa principal es cuando las predicciones del modelo no coinciden con la aplicación real.
ChatGPT es un excelente ejemplo de este tipo de enfoque de estilo asistente, y su aumento meteórico en popularidad puede atribuirse no solo a las impresionantes habilidades que ha demostrado en varios contextos, sino también a su facilidad de uso. Para alinear las predicciones del modelo con la realidad, le proporcionamos aprendizaje reforzado a partir de la retroalimentación humana (RLHF) y ejemplos generados por humanos de la aplicación deseada. Como instructor en RLHF, el ser humano reparte elogios o críticas como retroalimentación.
Los datos sintéticos que comprenden instrucciones creadas automáticamente al consultar modelos de lenguaje constituyen los conjuntos de datos más disponibles públicamente. Desafortunadamente, la complejidad, la originalidad y la calidad de estos conjuntos de datos están limitadas por su dependencia de un conjunto fijo de tipos de instrucciones permitidos. Incluso con un tamaño extenso y una capacitación previa, los modelos no podrán producir asistentes de IA efectivos, útiles y seguros si carecen de suficiente amplitud y calidad de datos. El conjunto de datos de conversaciones de OpenAssistant se introdujo y se puso a disposición del público para democratizar el estudio del problema de la alineación de grandes modelos de lenguaje. La distribución de esta información a la comunidad académica es el resultado de una campaña abierta y de colaboración abierta a gran escala que tiene como objetivo fomentar un estudio más diverso en este importante campo.
Los investigadores evalúan el conjunto de datos a fondo, teniendo en cuenta las preocupaciones éticas y de seguridad. Los investigadores también afinan y distribuyen muchos modelos de asistencia y preferencia para promover y brindar acceso y estudio en este dominio. Como resultado de esta apertura, los artefactos publicados pueden mejorarse a través de ciclos iterativos, lo que lleva a una atmósfera de investigación más cooperativa y acogedora.
Recopilación de datos y su estructura
Un árbol de conversación (CT) es la estructura de datos principal, con sus nodos que representan intercambios de conversación individuales. El nodo raíz de CT representa la indicación inicial del indicador. Los investigadores han dado nombres a las funciones de guía y ayudante de la discusión para brindar claridad. Un usuario humano o una computadora pueden desempeñar los roles de apuntador y asistente. Debido a esto, podemos guardar “usuarios” para nuestros ayudantes humanos.
Más de 13 000 personas contribuyeron a un proyecto de colaboración abierta para compilar los datos utilizados para crear el conjunto de datos de conversaciones de OpenAssistant. Se utilizó una interfaz de aplicación web5 para recopilar los datos. Simplificó el procedimiento en cinco fases: indicación, etiquetado de indicaciones, adición de mensajes de respuesta como indicador o asistente, etiquetado de respuestas y puntuación de respuestas del asistente. La moderación de contenido y el filtrado de correo no deseado fueron partes integrales del flujo de trabajo de anotación utilizado para seleccionar el conjunto de datos, lo que garantiza su alta calidad y seguridad.
Los árboles de mensajes se incluyen en esta recopilación de datos. Cada árbol de mensajes comienza con un mensaje de solicitud en su raíz y puede expandirse para incluir cualquier número de mensajes secundarios que representen respuestas.
“Asistente” y “Prompter” son valores posibles para el atributo de rol de un mensaje. Desde el aviso hasta un nodo de hoja, las responsabilidades de “prompter” y “asistente” se desconectan regularmente.
Limitaciones
Los problemas con el conjunto de datos incluyen la distribución desigual de contribuciones entre los usuarios, información potencialmente peligrosa y la subjetividad inherente y los prejuicios culturales de los anotadores.
- Debido a la transparencia de la investigación, habrá nuevas dificultades para eliminar cualquier sesgo de los datos. Anotadores de diversos orígenes socioeconómicos y culturales pueblan la colección.
- Las anotaciones de usuarios más activos tienden a sesgar el conjunto de datos para reflejar las preferencias de esos usuarios. Como resultado, el conjunto de datos puede carecer de la diversidad de opiniones que resultó de una distribución más equitativa de las contribuciones.
- Si bien se han tomado medidas para detectar comentarios ofensivos y eliminarlos del conjunto de datos, el sistema debe ser completamente seguro. Todavía existe la posibilidad de que el conjunto de datos contenga datos confidenciales que puedan causar daño.
- Reconocer que los procedimientos de alineación existentes no son perfectos y que pueden aumentar potencialmente ciertos sesgos es importante porque la alineación de los LLM es un elemento fundamental de la investigación de IA.
Los investigadores entienden que los modelos de lenguaje muy sofisticados pueden tener efectos de largo alcance en la sociedad. Como resultado, sienten que es crucial abogar por la apertura y las preocupaciones éticas al crear y desplegar tales modelos. Estos modelos pueden generar información inexacta sobre personas, lugares o hechos (a veces conocidos como “alucinaciones”). Además de crear información dañina o vil, los LLM también pueden violar los límites establecidos por sus usuarios. Aunque técnicas como RLHF pueden ayudar con algunos inconvenientes, pueden empeorar otros. Para estimular el estudio de la alineación en los LLM, los investigadores proporcionaron el conjunto de datos de OpenAssistant Conversations.
Uno puede encontrar una variedad de modelos y sus datos asociados aquí.
Por favor mira aquí para más información y ejemplos.
ChatGPT muestra que la alineación de modelos de lenguaje extenso (LLM) con las preferencias humanas mejora significativamente la usabilidad e impulsa la adopción rápida. Para hacer que los LLM sean más accesibles y útiles en una amplia gama de dominios, se han desarrollado enfoques de alineación como el ajuste fino supervisado (SFT) y el aprendizaje reforzado a partir de la retroalimentación humana (RLHF). Las técnicas de alineación de vanguardia como RLHF requieren datos de retroalimentación humana de alta calidad, pero estos datos son costosos y generalmente se mantienen en secreto. Los investigadores han lanzado OpenAssistant Conversations, un corpus de chat de estilo asistente generado por humanos y anotado por humanos, para democratizar la investigación sobre la alineación a gran escala.