Estás leyendo la publicación: ¿Sigue siendo relevante el aprendizaje por refuerzo?
La inteligencia consta de varios aspectos como el aprendizaje, el razonamiento y la planificación. Los seres humanos, por ejemplo, tienen inteligencia conductual, social y general, que puede llamarse simplemente sentido común. La dicotomía de si estas cosas se aprenden o están presentes de forma innata en los seres vivos, nos hace cuestionar si el aprendizaje por refuerzo (RL) o el aprendizaje autosupervisado (SSL) es el camino a seguir hacia la inteligencia artificial general (AGI).
Los investigadores y científicos están divididos sobre el uso del aprendizaje por refuerzo o SSL para desarrollar inteligencia artificial general. Si bien DeepMind de Google ha progresado mucho utilizando el aprendizaje por refuerzo, Meta AI ha estado presionando continuamente para lograr un aprendizaje autosupervisado o no supervisado, con Tesla subiéndose al carro también.
El famoso artículo de DeepMind ‘La recompensa es suficiente’ afirma que la inteligencia se puede lograr trabajando en el principio de ‘maximización de la recompensa’, que es esencialmente la expansión de los algoritmos de aprendizaje por refuerzo y es, posiblemente, lo más cercano a la inteligencia natural.
“Si un agente puede ajustar continuamente su comportamiento para mejorar su recompensa acumulada, entonces cualquier habilidad que su entorno demande repetidamente debe ser producida en última instancia en el comportamiento del agente”, dijeron los investigadores de DeepMind.
Yann LeCun de Meta AI ha estado hablando constantemente sobre cómo el método de prueba y error de RL para desarrollar inteligencia es una forma arriesgada de avanzar. Por ejemplo, un bebé no identifica objetos a su alrededor mirando millones de muestras del mismo objeto, o probando cosas peligrosas y aprendiendo de ellas, sino observándolas, prediciéndolas e interactuando con ellas incluso sin supervisión.
DeepMind dice que al comprender la visión de los mamíferos e implementar la neurociencia usando la visión por computadora, probablemente podamos categorizar objetos y diferenciarlos, pero estos están limitados a sistemas de inteligencia artificial estrechos diseñados para resolver problemas específicos y no generar habilidades de resolución generales.
David Silver de DeepMind considera que un marco de aprendizaje de refuerzo continuo que apunta a maximizar la recompensa en un ciclo “es” suficiente para producir atributos de la inteligencia humana, como la percepción, el lenguaje y la memoria.
Recientemente, OpenAI utilizó el aprendizaje por refuerzo a partir de la intervención humana y la retroalimentación GPT-3 afinada. El nuevo modelo, llamado InstructGPT, es extremadamente bueno para generar texto intencionado a partir de indicaciones de una sola oración. DeepMind también ha desarrollado modelos innovadores utilizando el aprendizaje por refuerzo como AlphaGo, AlphaFold y MuZero.
Las trampas del aprendizaje por refuerzo
Un perro, cuando se alimenta con golosinas después de realizar una tarea, permanece obediente. Esta simple explicación del refuerzo positivo hace que los investigadores confíen en que la IA probablemente también se pueda entrenar de esta manera. Si bien aún se encuentra en las etapas de desarrollo, el aprendizaje por refuerzo en las máquinas puede ser bastante desafiante (un perro tiene una naturaleza o emociones innatas de ser obediente).
Si bien existen varias aplicaciones prácticas del aprendizaje por refuerzo, el concepto en su conjunto presenta algunas limitaciones cuando se utiliza en el desarrollo de inteligencia artificial autónoma.
- Requiere una gran cantidad de datos y computación.
- Ruido en los datos es uno de los principales problemas con este método de aprendizaje. Pequeños cambios de entrenamiento pueden hacer una gran diferencia en los resultados de las pruebas
- Gran cantidad de hiperparámetros hace que el algoritmo sea difícil de ajustar. Muchos hiperparámetros son para dar forma a la recompensa, lo que también puede sesgar los datos de entrenamiento.
- Muestra de ineficiencia hace que sea difícil entrenar en el mundo real. Por ejemplo, como este método no utiliza CNN para medir la imagen o el espacio de estado, puede llevar semanas entrenar a un agente para que camine incluso en un entorno simulado.
- Imprevisibilidad de agentes entrenados en simulación en el mundo real
- Prueba y error puede ser muy costoso e ineficiente cuando se entrena en el mundo real
- Suposición que el agente tiene un número finito de acciones (Modelo de Markov)
Si bien el aprendizaje por refuerzo brinda decisiones mediante la creación de una simulación de un sistema, entrenar un modelo de IA en un conjunto de datos etiquetado es limitante ya que el mundo no está disponible como un conjunto de datos etiquetado. También es parte del proceso de capacitación que se lleva a cabo después de que el modelo se implementa y ya está funcionando.
Fusión de SSL y RL
Los investigadores están de acuerdo en que la instalación de conocimientos previos en las máquinas podría ser el camino a seguir para AGI, sin embargo, el concepto de conocimientos “antecedentes” es inexplicable. No es del todo evidente, derivando el significado de conciencia de los animales, que la mayoría de las cosas se aprenden con el tiempo o son parte de nuestro mecanismo innato.
La inteligencia artificial autónoma es el objetivo común en ambos enfoques, pero con el entrenamiento de refuerzo siempre hay un agente humano que dirige el funcionamiento de la máquina, mientras que el aprendizaje no supervisado propone aprender a partir de la observación. Los defensores del aprendizaje autosupervisado hablan de la ineficiencia de los métodos de prueba y error, pero la incertidumbre sigue siendo una barrera importante para el aprendizaje autosupervisado.
Sergey Levine de Berkeley AI Research propuso recientemente una solución que combina el aprendizaje autosupervisado con el aprendizaje por refuerzo fuera de línea, que explora la posibilidad de habilitar modelos para comprender el mundo sin supervisión y permitir que el aprendizaje por refuerzo explore la comprensión causal del mundo, ampliando así la Conjunto de datos cercano al infinito.
Yann LeCun propuso el Modelo mundial en papel en junio de 2022, que utiliza un “módulo de costos” en su arquitectura que mide el costo energético de una acción de la máquina. Cuando el aprendizaje por refuerzo se escala en conjuntos de datos más grandes, la maximización de la recompensa también necesita una mayor escala. Si el módulo de costos se puede implementar con el mecanismo de recompensa del aprendizaje por refuerzo, la arquitectura podrá producir los máximos resultados con la menor “energía” posible, lo que parece una forma plausible de avanzar.