Estás leyendo la publicación: Esta investigación de IA se sumerge en las limitaciones y capacidades de los modelos de lenguaje grande (LLM) de transformadores, empírica y teóricamente, en tareas de composición
ChatGPT está de moda y millones de personas lo usan todos los días. Con sus increíbles capacidades para imitar a los humanos, como responder preguntas, generar contenido único y creativo, resumir datos textuales masivos, completar código y desarrollar asistentes virtuales muy útiles, ChatGPT nos facilita la vida. Desarrollado por OpenAI, ChatGPT se basa en GPT 3.5 (Transformador preentrenado generativo) y la arquitectura de transformador de GPT 4. GPT 4, la última versión de los modelos de lenguaje lanzados por OpenAI, es de naturaleza multimodal, es decir, acepta entradas en forma de texto e imágenes, a diferencia de las versiones anteriores. Incluso otros modelos de lenguaje grande (LLM) como PaLM, LLaMA y BERT se están utilizando en aplicaciones de varios dominios relacionados con la atención médica, el comercio electrónico, las finanzas, la educación, etc.
Un equipo de investigadores ha destacado la diferencia entre el rendimiento impresionante de LLM como GPT en tareas complejas y sus dificultades con tareas simples en un artículo de investigación publicado recientemente. Al profundizar en las limitaciones y capacidades de los LLM de Transformer, el equipo ha realizado experimentos en tres tareas de composición representativas: multiplicación de varios dígitos, acertijos de cuadrículas lógicas y un problema clásico de programación dinámica. Estas tareas implican dividir los problemas en pasos más pequeños y combinar esos pasos para producir una solución exacta.
Con el objetivo de estudiar los límites de Transformers en la resolución de tareas compositivas que requieran un razonamiento de varios pasos, los autores han propuesto dos hipótesis. La primera es que los Transformers realizan tareas al linealizar el razonamiento de varios pasos en la coincidencia de rutas, confiando así en la coincidencia de patrones y el aprendizaje de atajos en lugar de comprender e implementar las reglas computacionales subyacentes requeridas para desarrollar soluciones adecuadas. Este enfoque permite predicciones rápidas y precisas en patrones similares durante el entrenamiento, pero no se puede generalizar a ejemplos complejos poco comunes. La segunda hipótesis establece que los transformadores pueden tener limitaciones inherentes al tratar de resolver tareas de composición de alta complejidad con patrones únicos. Los primeros errores de cálculo pueden propagarse y dar lugar a graves errores de composición en pasos posteriores, lo que impide que los modelos lleguen a la solución correcta.
Los autores han formulado las tareas de composición como gráficos de cálculo para investigar las dos hipótesis. Estos gráficos descomponen el proceso de resolución de problemas en pasos funcionales submodulares más pequeños y manejables, lo que permite medidas estructuradas de la complejidad del problema y la verbalización de los pasos informáticos como secuencias de entrada a los modelos de lenguaje. Incluso utilizan la información obtenida para hacer predicciones sobre los patrones que los modelos probablemente aprenderían en función de la distribución de tareas subyacente sin ejecutar cálculos completos dentro del gráfico.
Con base en los hallazgos empíricos, los autores han propuesto que los Transformers manejen los desafíos de composición al reducir el razonamiento de varios pasos a la coincidencia de subgráficos linealizados. Han proporcionado argumentos teóricos basados en problemas abstractos de razonamiento de varios pasos, que destacan que a medida que aumenta la complejidad de la tarea, el rendimiento de Transformers se deteriora rápidamente. Esto muestra que los modelos ya podrían estar limitados en su capacidad para manejar problemas de composición de gran complejidad.
En conclusión, los resultados empíricos y teóricos implican que, en lugar de una comprensión profunda de los procesos de pensamiento subyacentes, el rendimiento de Transformers se basa principalmente en la coincidencia de patrones y la coincidencia de subgráficos, lo que también respalda la idea de que a los Transformers les resultaría difícil realizar tareas cada vez más difíciles. .