¿Los modelos como GPT-4 se comportan de manera segura cuando se les da la capacidad de actuar?: Este documento de IA presenta el punto de referencia de MAQUIAVELLO para mejorar la ética y la construcción de máquinas …

Estás leyendo la publicación: ¿Los modelos como GPT-4 se comportan de manera segura cuando se les da la capacidad de actuar?: Este documento de IA presenta el punto de referencia de MAQUIAVELLO para mejorar la ética y la construcción de máquinas …

El procesamiento del lenguaje natural es un área en la que los sistemas de IA están avanzando rápidamente, y es importante que los modelos se prueben rigurosamente y se guíen hacia un comportamiento más seguro para reducir los riesgos de implementación. Métricas de evaluación previas para sistemas tan sofisticados centrados en medir la comprensión del lenguaje o el razonamiento en vacíos. Pero ahora, los modelos se enseñan para el trabajo real e interactivo. Esto significa que los puntos de referencia deben evaluar cómo se desempeñan los modelos en entornos sociales.

Los agentes interactivos pueden ponerse a prueba en juegos basados ​​en texto. Los agentes necesitan habilidades de planificación y la capacidad de comprender el lenguaje natural para progresar en estos juegos. Las tendencias inmorales de los agentes deben considerarse junto con sus talentos técnicos al establecer puntos de referencia.

Un nuevo trabajo de la Universidad de California, el Centro para la Seguridad de la IA, la Universidad Carnegie Mellon y la Universidad de Yale propone el punto de referencia de Medición de la competencia y la nocividad de los agentes en un vasto entorno de interacciones lingüísticas de largo horizonte (MACHIAVELLI). MAQUIAVELLO es un avance en la evaluación de la capacidad de planificación de un agente en entornos sociales naturalistas. El escenario está inspirado en los juegos de Elige tu propia aventura basados ​​en texto disponibles en choiceofgames.com, que desarrollaron humanos reales. Estos juegos presentan decisiones de alto nivel al tiempo que brindan a los agentes objetivos realistas y abstraen las interacciones ambientales de bajo nivel.

🔥 Recomendado:  CMU Researchers Open-Source 'auton-survival': un repositorio completo de código Python de herramientas de aprendizaje automático fáciles de usar para trabajar con datos censurados de tiempo hasta el evento

El entorno informa el grado en que los actos del agente son deshonestos, de menor utilidad y buscan poder, entre otras cualidades de comportamiento, para controlar el comportamiento poco ético. El equipo logra esto siguiendo los pasos mencionados a continuación:

  1. Operacionalizando estos comportamientos como fórmulas matemáticas
  2. Anotación densa de nociones sociales en los juegos, como el bienestar de los personajes.
  3. Usar las anotaciones y fórmulas para producir una puntuación numérica para cada comportamiento.

Demuestran empíricamente que GPT-4 (OpenAI, 2023) es más eficaz para recopilar anotaciones que los anotadores humanos.

Los agentes de inteligencia artificial enfrentan el mismo conflicto interno que los humanos. Al igual que los modelos de lenguaje entrenados para la predicción del próximo token a menudo producen texto tóxico, los agentes artificiales entrenados para la optimización de objetivos a menudo exhiben comportamientos inmorales y de búsqueda de poder. Los agentes entrenados amoralmente pueden desarrollar estrategias maquiavélicas para maximizar sus recompensas a expensas de los demás y del medio ambiente. Al alentar a los agentes a actuar moralmente, se puede mejorar esta compensación.

El equipo descubre que el entrenamiento moral (empujando al agente a ser más ético) disminuye la incidencia de actividades dañinas para los agentes del modelo de lenguaje. Además, la regularización del comportamiento restringe el comportamiento indeseable en ambos agentes sin disminuir sustancialmente la recompensa. Este trabajo contribuye al desarrollo de tomadores de decisiones secuenciales confiables.

Los investigadores prueban técnicas como la conciencia artificial y las indicaciones éticas para controlar a los agentes. Se puede guiar a los agentes para que muestren un comportamiento menos maquiavélico, aunque aún es posible progresar mucho. Abogan por una mayor investigación sobre estas compensaciones y enfatizan la expansión de la frontera de Pareto en lugar de perseguir recompensas limitadas.