Los modelos sin censura superan a los modelos de lenguaje alineado

Estás leyendo la publicación: Los modelos sin censura superan a los modelos de lenguaje alineado

Cuando escuchamos la palabra “sin censura” en IA, pensamos en modelos que pueden ser dañinos y posiblemente sesgados. Si bien eso puede ser absolutamente cierto, estos modelos sin censura están superando cada vez más a sus contrapartes alineados, incluso si son posiblemente dañinos.

Según el Open LLM Leaderboard on Hugging Face, los modelos sin censura como Wizard-Vicuna-13B-Uncensored-HF, cuyo desarrollador recientemente se metió en problemas por lanzar el modelo al público, han estado compitiendo con LLaMa y Falcon y es uno de los mejores modelos

Ajustar demasiado un modelo puede perjudicar sus capacidades. Este fenómeno se denomina impuesto de alineación de los modelos de IA. Cuando un modelo pasa por varias pruebas comparativas con humanos en el circuito tratando de hacer que el modelo esté lo más alineado y “políticamente correcto” posible, pierde gran parte de su rendimiento. Mucho de esto se debe al aprendizaje reforzado con retroalimentación humana (RLHF).

El impuesto de alineación es el costo adicional que debe pagar un sistema de IA para mantenerse más alineado, a costa de construir un modelo no alineado o sin censura. Lo que en última instancia también está dificultando su rendimiento.

demasiado entrenamiento

No hay duda de que la decisión de OpenAI de usar RLHF para entrenar su modelo GPT dio origen al muy publicitado y querido ChatGPT. Pero incluso entonces, según el documento GPT-4, la precisión y la factualidad del modelo eran mucho mejores y más confiables antes de que los investigadores decidieran usar RLHF para el ajuste fino.

🔥 Recomendado:  Los 10 mejores proveedores de alojamiento en la nube

El artículo Sparks of AGI de Microsoft Research explica este fenómeno GPT-4. El documento habla sobre cómo en la etapa inicial de desarrollo del modelo, se desempeñó mucho mejor que el resultado final después del ajuste con RLHF. Aunque ahora el modelo está más alineado y da respuestas equilibradas, antes sus capacidades de respuesta eran mucho mejores.

En una presentación del artículo, Sebastien Bubeck, uno de sus autores principales, narró los problemas que ocurrieron después de entrenar GPT-4. Dio un ejemplo del mensaje, “dibuja el unicornio”, y explicó cómo la calidad de la salida se degradó significativamente después de que el modelo se alineó por seguridad.

Muchos usuarios de Reddit compartieron un caso similar en una publicación. Durante los primeros días de lanzamiento de ChatGPT, solía proporcionar resultados mucho mejores. Pero después de que la gente comenzó a hacer jailbreak a ChatGPT, OpenAI puso más medidas de seguridad y restricciones en un intento de abordar los problemas, lo que resultó en respuestas más deficientes con el tiempo.

Meta AI lanzó recientemente LIMA, un modelo LLaMa 65B en el que comparó el entrenamiento previo de un modelo con datos sin procesar sin supervisión versus el ajuste de instrucciones a gran escala, es decir, un modelo basado en RLHF. Según el documento, LIMA pudo superar a GPT-4 en el 43 % de los casos de uso con solo 1000 indicaciones cuidadosamente seleccionadas. Aunque el modelo no estuvo tan censurado, muestra claramente que RLHF podría estar obstaculizando el rendimiento de ChatGPT.

¿Es el bajo rendimiento un trato justo para la alineación?

A medida que el mundo se dirige hacia más regulaciones de IA, es importante que los modelos estén más alineados con lo que quieren los desarrolladores y los usuarios. Para filtrar la información errónea que estos modelos tienen la capacidad de producir, es necesario tener humanos en el circuito que podrían volver a encarrilar a los modelos alucinantes.

🔥 Recomendado:  El órgano sensorial de los peces podría mejorar los robots submarinos

Estos modelos se basan esencialmente en datos de Internet. Además de una gran cantidad de información necesaria, los datos también se eliminan sin darse cuenta de los sitios web que crean información errónea. Esto da como resultado que el modelo emita falsedades, que en todos los sentidos deben ser controladas. Por otro lado, ¿realmente quieres que tu chatbot no proporcione la información que deseas? Aunque los modelos similares a ChatGPT no arrojan contenido controvertido o engañoso según lo diseñado por los desarrolladores, muchos usuarios han criticado el modelo por estar demasiado “despertado”.

Un artículo titulado, Leyes de escala para la sobreoptimización del modelo de recompensa, explica cómo las preferencias de RLHF inducen sesgos en los modelos que dificultan el rendimiento real de los modelos. Algunas personas comparan el ajuste excesivo de un modelo con la lobotomía del cerebro.

Favor y en contra

Dado que estos modelos sin censura han superado a muchos otros modelos censurados, podemos argumentar que estos modelos deberían permitirse y usarse para crear chatbots. Los modelos sin censura que no filtran las respuestas que los creadores del modelo considerarían que no son lo suficientemente seguras pueden no ser adecuados para los investigadores y científicos que desean explorar el modelo de campo.

Pero, por otro lado, viene con muchos problemas como el mal uso, los actores dañinos y los modelos de IA con intenciones maliciosas. Si bien podemos defender que la comunidad de código abierto sea lo suficientemente responsable como para no hacer un mal uso de los modelos no alineados, no hay garantía de nada de eso.

🔥 Recomendado:  Los 23 mejores lugares para vender artesanías en línea

Además, alinear modelos para representar un único punto de vista podría no ser el camino a seguir en el futuro. Si el chatbot de OpenAI está demasiado despierto, debería haber una alternativa disponible para que los desarrolladores construyan sus propias versiones de ChatGPT.

Imagínese, si China lanza un chatbot que está tan alineado con las creencias del gobierno que no puede operar abiertamente ni criticar nada en el país. Incluso si los desarrolladores intentan controlar los conjuntos de datos y realizar RLHF tanto como puedan, ¿cuál es la posibilidad de que dicho modelo de IA esté perfectamente alineado y ahora arroje cualquier cosa que los creadores no quieran?

Tabla de Contenido