Estás leyendo la publicación: El último estudio de DeepMind sobre inteligencia artificial explica cómo las redes neuronales se generalizan y ascienden en la jerarquía de Chomsky
Un grupo de investigación de DeepMind realizó un estudio de generalización integral sobre arquitecturas de redes neuronales en el artículo ‘Redes neuronales y la jerarquía de Chomsky‘, que investiga si los conocimientos de la teoría de la computación y la jerarquía de Chomsky pueden predecir las limitaciones reales de la generalización de redes neuronales.
Si bien entendemos que desarrollar modelos potentes de aprendizaje automático requiere una generalización precisa a las entradas fuera de distribución. Sin embargo, no está claro cómo y por qué las redes neuronales pueden generalizar en tareas de predicción de secuencias algorítmicas.
El grupo de investigación realizó un minucioso estudio de generalización en más de 2000 modelos individuales repartidos en 16 tareas de arquitecturas de redes neuronales de vanguardia y redes neuronales aumentadas por memoria en una batería de tareas de predicción de secuencias que abarcan todos los niveles de la jerarquía de Chomsky que se pueden evaluar prácticamente con cálculo de tiempo finito.
Demostraron que cantidades más significativas de datos de entrenamiento no permiten la generalización en tareas más arriba en la jerarquía para varias arquitecturas, lo que posiblemente sugiere restricciones rígidas para las reglas de escala.
Mostraron cómo las arquitecturas con memoria organizada diferenciable, como una cinta o una pila, pueden abordar problemas de nivel superior.
El estudio DeepMind ofrece un análisis empírico completo de varios modelos relacionados con la jerarquía de Chomsky. A diferencia de las investigaciones anteriores, que se realizaron para determinar si los diseños de redes neuronales tradicionales pueden comprender un lenguaje formal, estas investigaciones a menudo se concentraron en una arquitectura única y una colección limitada de tareas.
La jerarquía de Chomsky, llamada así por el influyente lingüista y filósofo estadounidense que la creó, es esencialmente una jerarquía de contención de la gramática formal que clasifica los idiomas según el tipo de autómata capaz de reconocerlos. Es factible establecer si los modelos alternativos pueden o no identificar lenguajes regulares específicos comparándolos con la jerarquía de Chomsky.
Según los investigadores, los autómatas de nivel inferior tienen modelos de memoria limitados y solo pueden manejar conjuntos de problemas de nivel inferior, pero las máquinas de Turing con memoria ilimitada y acceso a la memoria sin restricciones pueden responder a todos los problemas computables y, por lo tanto, se denominan Turing completo.
Los hallazgos revelan que las memorias a largo plazo y los transformadores no están completos en Turing porque son incapaces de manejar tareas de secuencias básicas como la duplicación de cadenas cuando las secuencias son mucho más largas que las observadas durante el entrenamiento. Mientras tanto, los modelos que interactúan con estructuras de memoria externa pueden ascender en la jerarquía de Chomsky, lo que sugiere que esta configuración es una vía de estudio viable para mejorar el diseño arquitectónico.
Este artículo está escrito como un artículo de resumen por el personal de Marktechpost basado en el trabajo de investigación ‘Redes neuronales y la jerarquía de Chomsky‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools