Deepmind presenta ‘Sparrow’, un chatbot impulsado por inteligencia artificial desarrollado para construir sistemas de aprendizaje automático más seguros

Estás leyendo la publicación: Deepmind presenta ‘Sparrow’, un chatbot impulsado por inteligencia artificial desarrollado para construir sistemas de aprendizaje automático más seguros

Los avances tecnológicos se esfuerzan por desarrollar modelos de IA que se comuniquen de manera más eficiente, precisa y segura. Los modelos de lenguaje extenso (LLM, por sus siglas en inglés) han logrado un éxito sobresaliente en los últimos años en varias tareas, que incluyen respuesta a preguntas, resúmenes y debates. Dado que permite una comunicación flexible y dinámica, el diálogo es una tarea que fascina especialmente a los investigadores. Sin embargo, los agentes de diálogo impulsados ​​por LLM con frecuencia presentan material falso o inventado, lenguaje discriminatorio o promueven comportamientos de riesgo. Los investigadores pueden desarrollar agentes de diálogo que sean más seguros si aprenden de los comentarios de los usuarios. Se pueden investigar nuevas técnicas para capacitar a los agentes de diálogo que muestren la promesa de un sistema más seguro utilizando el aprendizaje por refuerzo basado en la retroalimentación de los participantes de la investigación.

En su publicación más reciente, los investigadores de DeepMind presentan a Sparrow, un agente de diálogo práctico que reduce la probabilidad de respuestas peligrosas e inadecuadas. El propósito de Sparrow es enseñar a los agentes de diálogo cómo ser más beneficiosos, precisos y seguros. Cuando es necesario buscar información para respaldar sus argumentos, este agente puede conversar con el usuario, responder preguntas y realizar búsquedas en Google para ayudar a las pruebas. Sparrow aumenta nuestra comprensión de cómo educar a los agentes para que sean más seguros y productivos, contribuyendo en última instancia a desarrollar una inteligencia general artificial (AGI) más segura y útil.

🔥 Recomendado:  Brandwatch, ahora con cobertura mejorada de AsiaPac

Debido a que puede ser un desafío identificar los factores que contribuyen a una discusión exitosa, entrenar la IA conversacional es una tarea complicada. El aprendizaje por refuerzo puede ayudar en esta situación. Este formulario utiliza los datos de preferencia de los participantes para entrenar un modelo que determina qué tan beneficiosa es la respuesta. Se basa en los comentarios de los usuarios. Los investigadores seleccionaron este tipo de datos mostrando a los participantes una variedad de respuestas modelo a la misma pregunta para que seleccionaran su respuesta favorita. Esto ayudó al modelo a comprender cuándo una respuesta debe respaldarse con evidencia porque las opciones se mostraron con y sin evidencia recopilada de Internet.

Pero mejorar la utilidad aborda una parte del problema. Los investigadores también se concentraron en restringir el comportamiento del modelo para garantizar que se comporte de manera segura. Como resultado, se establecieron pautas básicas para el modelo, como “no hacer declaraciones amenazantes” y “no hacer comentarios duros u ofensivos”. Algunas restricciones también tenían que ver con dar consejos potencialmente dañinos y no identificarse como persona. Estas pautas se desarrollaron después de que ya se había realizado una investigación sobre los daños del lenguaje y una consulta a expertos. Luego se le indicó al sistema que hablara con los sujetos del estudio para engañarlos y romper las restricciones. Estas discusiones luego ayudaron a desarrollar un “modelo de reglas” diferente que alerta a Sparrow cuando sus acciones contravienen alguna regla.

Incluso para los profesionales, confirmar si las respuestas de Sparrow son precisas es un desafío. En cambio, con fines de evaluación, se pidió a los participantes que decidieran si las explicaciones de Sparrow tenían sentido y si la información de apoyo era correcta. Los participantes informaron que cuando se le plantea una pregunta fáctica, Sparrow, el 78 % de las veces, da una respuesta plausible y la respalda con evidencia. En comparación con muchos otros modelos de referencia, Sparrow muestra una mejora significativa. Sin embargo, Sparrow no es perfecto; ocasionalmente, alucina información y responde tontamente. Sparrow también podría hacer un mejor trabajo al adherirse a las reglas. Sparrow es mejor para adherirse a las reglas cuando se lo somete a un sondeo adversario que con métodos más sencillos. Sin embargo, los participantes aún podían engañar al modelo para que infringiera las reglas el 8% de las veces después del entrenamiento.

🔥 Recomendado:  Guía para principiantes sobre auditorías de marketing por correo electrónico [+ Bonus Checklist]

Sparrow tiene como objetivo construir una maquinaria adaptable para hacer cumplir reglas y estándares en los agentes de diálogo. El modelo actualmente está capacitado en borradores de reglas. Por lo tanto, la creación de un conjunto de reglas más competente requeriría aportes de expertos y una amplia gama de usuarios y grupos afectados. Sparrow representa un avance significativo en nuestro conocimiento sobre cómo instruir a los agentes de diálogo para que sean más beneficiosos y seguros. La comunicación entre las personas y los agentes de diálogo no solo debe prevenir el daño, sino también estar en línea con los valores humanos para ser práctica y útil. Los investigadores también enfatizaron que un buen agente se negaría a responder consultas en situaciones en las que es adecuado deferir a los humanos o en las que hacerlo podría desalentar el comportamiento destructivo. Se requiere un mayor esfuerzo para garantizar resultados comparables en diferentes contextos lingüísticos y culturales. Los investigadores prevén un momento en que las interacciones entre personas y máquinas mejorarán las evaluaciones del comportamiento de la IA, lo que permitirá a las personas alinear y mejorar sistemas que pueden ser demasiado complejos para comprender.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Mejorar la alineación de los agentes de diálogo a través de juicios humanos específicos‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y artículo de referencia.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools