Estás leyendo la publicación: La investigación más reciente sobre aprendizaje automático (ML) de CMU presenta aprendizaje de imitación causal bajo ruido correlacionado temporalmente
Una forma de aprendizaje social, la imitación es la forma en que se adquieren nuevos comportamientos. Practicar la imitación puede ayudar a comprender cómo comunicarse, interactuar socialmente y controlar las propias emociones, al mismo tiempo que se tienen en cuenta los sentimientos de los demás. Tanto los humanos como los animales pueden imitar el comportamiento de los demás, y esta forma de aprendizaje, conocida como imitación, juega un papel importante en la forma en que los humanos adquirimos y refinamos nuestras prácticas culturales. Si bien el aprendizaje por observación puede ocurrir cuando el alumno es testigo de un comportamiento desagradable y sus consecuencias posteriores y aprende a evitar ese comportamiento, el aprendizaje por imitación difiere porque requiere que el alumno imite el comportamiento del modelo.
Una gran parte de la teoría detrás del aprendizaje por imitación (IL) sugiere que, con suficientes demostraciones, la política de un experto se puede recuperar con éxito. La investigación de larga data ha generado límites de rendimiento que sugieren que la equivalencia de valor con la política de expertos debería derivarse de la reducción del error de entrenamiento de muestra infinita a cero. En la práctica, sin embargo, los algoritmos de IL en grandes conjuntos de datos a menudo generan estimaciones descaradamente erróneas de la política del experto. La evidencia de este fenómeno puede estar limitada a grabaciones de expertos contaminadas por ruido asociado al tiempo (TCN).
Las correlaciones temporales en las actividades registradas que no tienen su verdadera fuente en el estado registrado son el efecto dominó de TCN (más formalmente, un factor de confusión no observado). Cuando el estado refleja correlaciones temporales entre pares de actos, el alumno puede adoptar erróneamente estas correlaciones como reales, lo que lleva a predicciones políticas inconsistentes.
El uso de un experto consultable no es una suposición realista para muchos dominios, pero el uso de una técnica de aprendizaje de imitación interactiva como DAgger permitiría recopilar un conjunto de datos no corrompido por confusión. Investigadores de la Universidad Carnegie Mellon, la Universidad de Cornell y Aurora Innovation creen que es más racional generar resultados que correspondan a las sugerencias hechas por un experto cuando se le pregunta sobre la situación en cuestión.
Su última investigación analiza métodos basados en un conjunto predeterminado de demostraciones para resolver los problemas antes mencionados. El método econométrico de lidiar con la confusión en los datos registrados es la inspiración para su metodología. El concepto fundamental de IVR es condicionar un instrumento, que es una fuente de variación aleatoria separada del factor de confusión, para desconfundir las entradas de una técnica de aprendizaje. Debido a que es independiente de las influencias futuras, el pasado de un sistema puede servir como fuente de variedad en los sistemas dinámicos.
Hay esencialmente tres partes en el proceso del investigador:
- Sistematizar la confusión para una mejor comprensión de su papel en el aprendizaje por imitación. Desarrollaron un modelo causal estructural para explicar los efectos de confusión del ruido correlacionado con el tiempo.
- Los métodos modernos de regresión de variables instrumentales se presentan con una historia de origen cohesiva. Demuestran la similitud estructural entre dos variantes desarrolladas recientemente del método IVR estándar.
- Proporcionan dos nuevos algoritmos para manejar la confusión en el aprendizaje por imitación, los cuales usan el pasado para amortiguar el impacto del ruido correlacionado con el tiempo. Expanden la tecnología IVR actual para desarrollar dos algoritmos confiables dentro del marco de TCN:
- DoubIL es una estrategia de modelado generativo habilitada para un simulador para simplificar los tamaños de muestra.
- ResiduIL es un método de teoría de juegos sin simulador.
El equipo compite por garantías sobre qué tan bien funcionarán estos algoritmos cuando se apliquen a las políticas de TCN y verifique qué tan bien lo hacen en tareas de control simuladas. También realizaron un estudio empírico sobre cómo la presencia a largo plazo del factor de confusión influye en la eficacia de la política. Sus resultados demuestran la viabilidad de utilizar estados históricos para superar la conexión engañosa entre estados y acciones debido a un factor de confusión no observado.