Estás leyendo la publicación: Deep Language Models está mejorando cada vez más al aprender a predecir la siguiente palabra a partir de su contexto: ¿Es esto realmente lo que el cerebro humano…
El aprendizaje profundo ha logrado avances significativos en la generación, traducción y finalización de textos en los últimos años. Los algoritmos entrenados para predecir palabras a partir de su contexto circundante han sido fundamentales para lograr estos avances. Sin embargo, a pesar del acceso a grandes cantidades de datos de entrenamiento, los modelos de lenguaje profundo aún necesitan ayuda para realizar tareas como la generación de historias largas, resúmenes, diálogos coherentes y recuperación de información. Se ha demostrado que estos modelos necesitan ayuda para capturar la sintaxis y las propiedades semánticas, y su comprensión lingüística debe ser más superficial. La teoría de la codificación predictiva sugiere que el cerebro de un ser humano hace predicciones en múltiples escalas de tiempo y niveles de representación en toda la jerarquía cortical. Aunque los estudios han mostrado previamente evidencia de predicciones del habla en el cerebro, la naturaleza de las representaciones predichas y su alcance temporal siguen siendo en gran parte desconocidos. Recientemente, los investigadores analizaron las señales cerebrales de 304 personas que escuchaban cuentos y descubrieron que mejorar los modelos de lenguaje profundo con predicciones de largo alcance y de varios niveles mejoraba el mapeo cerebral.
Los resultados de este estudio revelaron una organización jerárquica de las predicciones del lenguaje en la corteza. Estos hallazgos se alinean con la teoría de la codificación predictiva, que sugiere que el cerebro hace predicciones en múltiples niveles y escalas de tiempo de expresión. Los investigadores pueden cerrar la brecha entre el procesamiento del lenguaje humano y los algoritmos de aprendizaje profundo al incorporar estas ideas en modelos de lenguaje profundo.
El estudio actual evaluó hipótesis específicas de la teoría de la codificación predictiva al examinar si la jerarquía cortical predice varios niveles de representaciones, que abarcan múltiples escalas de tiempo, más allá de las predicciones a nivel de palabra y vecindario que generalmente se aprenden en algoritmos de lenguaje profundo. Se compararon modelos modernos de lenguaje profundo y la actividad cerebral de 304 personas que escuchaban cuentos hablados. Se descubrió que las activaciones de algoritmos de lenguaje profundo complementados con predicciones de largo alcance y alto nivel describen mejor la actividad cerebral.
El estudio hizo tres contribuciones principales. Inicialmente, se descubrió que la circunvolución supramarginal y las cortezas lateral, dorsolateral y frontal inferior tenían las distancias de predicción más grandes y anticipaban activamente las representaciones del lenguaje futuro. El surco temporal superior y la circunvolución se modelan mejor mediante predicciones de bajo nivel, mientras que las predicciones de alto nivel modelan mejor las regiones temporal media, parietal y frontal. En segundo lugar, la profundidad de las representaciones predictivas varía a lo largo de una arquitectura anatómica similar. Eventualmente, se demostró que los rasgos semánticos, más que los sintácticos, son los que influyen en los pronósticos a largo plazo.
Según los datos, se demostró que las circunvoluciones lateral, dorsolateral, inferior y supramarginal tenían las distancias más largas previstas. Estas áreas corticales están vinculadas a actividades ejecutivas de alto nivel como el pensamiento abstracto, la planificación a largo plazo, la regulación atencional y la semántica de alto nivel. Según la investigación, estas regiones, que se encuentran en la parte superior de la jerarquía del lenguaje, pueden anticipar activamente las representaciones del lenguaje futuro además de procesar pasivamente los estímulos pasados.
El estudio también demostró variaciones en la profundidad de las representaciones predictivas a lo largo de la misma organización anatómica. El surco temporal superior y la circunvolución se modelan mejor mediante predicciones de bajo nivel, mientras que las predicciones de alto nivel modelan mejor las regiones temporal media, parietal y frontal. Los resultados son consistentes con la hipótesis. A diferencia de los algoritmos del lenguaje actuales, el cerebro predice representaciones en varios niveles en lugar de solo aquellas en el nivel de la palabra.
Finalmente, los investigadores separaron las activaciones cerebrales en representaciones sintácticas y semánticas, y descubrieron que las características semánticas, en lugar de las sintácticas, influyen en los pronósticos a largo plazo. Este hallazgo respalda la hipótesis de que el corazón del procesamiento del lenguaje de formato largo puede involucrar la predicción semántica de alto nivel.
La conclusión general del estudio es que los puntos de referencia para el procesamiento del lenguaje natural podrían mejorarse y los modelos podrían parecerse más al cerebro mediante el entrenamiento constante de algoritmos para predecir numerosas líneas de tiempo y niveles de representación.