En un nuevo documento de aprendizaje automático, los investigadores de Deepmind proponen un enfoque ‘llamado Clonación de políticas aumentada (APC)’ para respaldar el proceso de aprendizaje eficiente de datos…

Estás leyendo la publicación: En un nuevo documento de aprendizaje automático, los investigadores de Deepmind proponen un enfoque ‘llamado Clonación de políticas aumentada (APC)’ para respaldar el proceso de aprendizaje eficiente de datos…

La clonación de comportamiento es una clase versátil de técnicas que transfieren comportamientos de demostraciones de expertos en situaciones de control o aprendizaje por refuerzo (RL). Estos incluyen un humano que teleopera el sistema pertinente siguiendo una política de estudiante capacitado. Sin embargo, la clonación conductual se vuelve menos efectiva cuando también se dispone de una política experta y se puede consultar. Un equipo de investigación de DeepMind sugiere un método de aumento de datos sólido y fácil de usar llamado Clonación de políticas aumentada (APC) en su nuevo artículo, “Aumento de datos para un aprendizaje eficiente de expertos en parametría.” Con la ayuda de especialistas en parametría, esta técnica ofrece un aprendizaje eficiente de los datos para problemas de control con altos grados de libertad. La eficiencia de los datos aumenta considerablemente con el método sugerido en varios contextos de aprendizaje de control y refuerzo.

Su investigación se centra en la configuración de “clonación de políticas”, que utilizan consultas en línea o fuera de línea de un experto o una política de expertos para guiar la conducta de una política estudiantil. El método sugerido aborda el aumento de datos como un problema típico de RL. Utiliza datos adicionales de un despliegue experto en las cercanías de las trayectorias muestreadas para identificar políticas que optimicen la recompensa futura con descuento anticipada del sistema. La configuración para la clonación de políticas ocurre naturalmente en muchos problemas, como variaciones de la clonación de comportamiento, o puede incluirse en otros algoritmos como DAGGER, destilación de políticas o RL regularizado por KL.

🔥 Recomendado:  ¿Puede la inteligencia artificial igualar la creatividad humana? Un nuevo estudio compara la generación de ideas originales entre humanos y chatbots de inteligencia artificial generativa

Para situaciones de control con altos grados de libertad, se logra una transferencia de comportamiento de datos altamente eficiente de un experto a una política de estudiante. El método de clonación de políticas aumentada reduce drásticamente la cantidad de interacciones ambientales necesarias para una clonación experta exitosa al inducir la sensibilidad de retroalimentación en una región alrededor de las trayectorias de muestreo utilizando estados sintéticos. Los investigadores también muestran cómo, cuando la clonación de políticas se incluye como parte constitutiva; su método prevalece sobre varios otros algoritmos ampliamente utilizados. Las ventajas de su estrategia también se pueden enfatizar en dos contextos principales. La compresión experta es la primera configuración o transferencia a un estudiante con menos parámetros. La segunda implica la transmisión de especialistas privilegiados, en la que el experto observa algo distinto del alumno.

El equipo realizó varias evaluaciones experimentales en las que contrastaron la estrategia de APC sugerida con puntos de referencia como el enfoque ingenuo. Los experimentos mostraron que APC aumentó considerablemente la eficiencia de los datos en situaciones como DAgger, kickstarting, compresión experta, clonación de expertos privilegiados y clonación conductual. En general, el trabajo de DeepMind presenta un método prometedor para transferir rápidamente los comportamientos de los expertos mediante la ampliación de los datos sobre las trayectorias de los expertos. El equipo cree que el uso de un modelo de estado para generar y muestrear estados virtuales permitirá una investigación fascinante en el futuro.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Aumento de datos para un aprendizaje eficiente de expertos en parametría‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools