Una nueva investigación de inteligencia artificial propone ExaRanker: exploración del papel de las explicaciones del lenguaje natural en la mejora de los modelos de recuperación de información

Estás leyendo la publicación: Una nueva investigación de inteligencia artificial propone ExaRanker: exploración del papel de las explicaciones del lenguaje natural en la mejora de los modelos de recuperación de información

Los problemas de recuperación de información (IR) vieron mejoras considerables en transformadores entrenados como BERT y T5, refinados en millones de casos. Se espera que un modelo funcione mejor que los modelos no supervisados ​​cuando las consultas y los documentos de un trabajo de interés son comparables con los de los datos de ajuste fino. Por ejemplo, en 15 de 18 conjuntos de datos del benchmark BEIR, un monoT5 reclasificado supera a BM25 después de haber sido ajustado en 400k pares de consulta-pasaje positivos de MS MARCO. Sin embargo, el rendimiento del modelo disminuye drásticamente cuando se restringe el número de ejemplos etiquetados.

Por ejemplo, en el punto de referencia de clasificación de pasajes de MS MARCO, un reordenador BERT que se ajustó utilizando 10k pares de pasajes relevantes para consultas solo supera ligeramente a BM25. El requisito de más datos de ajuste fino se puede reducir al precio de mayores recursos de procesamiento aumentando el tamaño del modelo o entrenándolo previamente en objetivos específicos de IR. Sostienen que las etiquetas categóricas (como verdadero/falso) se usan para afinar los perros perdigueros neurales, que es una de las razones por las que requieren una gran cantidad de muestras de entrenamiento. Estas etiquetas necesitan más contexto para el trabajo que se debe aprender, lo que dificulta que el modelo comprenda sus sutilezas.

Considere el escenario en el que está tratando de educar a una persona para que evalúe la relevancia de los pasajes para las consultas. Aún así, solo puede transmitir “verdadero” o “falso” para cada par de consulta-pasaje. El proceso de aprendizaje sería más efectivo si las justificaciones de por qué un párrafo es relevante o no para una determinada consulta se proporcionaran en términos sencillos. Este estudio proporciona una técnica para entrenar modelos de recuperación que elimina el requisito de entrenar instancias al emplear explicaciones en lenguaje natural como etiquetas adicionales. Comienza con el uso de un modelo LLM con ejemplos en contexto para proporcionar explicaciones para los triples consulta-pasaje-etiqueta. La Figura 1 muestra el método sugerido.

🔥 Recomendado:  Los físicos avanzan en los robots de cambio de forma de próxima generación

Después de agregar las explicaciones creadas a estos triples de entrenamiento, se ajusta un modelo de secuencia a secuencia para producir la etiqueta objetivo seguida de la explicación. Basado simplemente en la probabilidad otorgada al token de etiqueta, el modelo ajustado se utiliza para calcular la relevancia de una combinación de consulta y pasaje durante la fase de inferencia. Además, demuestran cómo los LLM de pocos disparos como GPT-3.5 se pueden usar con éxito para agregar automáticamente justificaciones a los ejemplos de capacitación, lo que permite a los expertos en IR adaptar su enfoque a conjuntos de datos adicionales sin necesidad de anotación manual.

Sus hallazgos sugieren que a medida que aumenta la cantidad de instancias de capacitación, disminuye la utilidad de integrar explicaciones. Además, su investigación muestra que cuando un modelo se ajusta para crear una etiqueta antes de una explicación, el rendimiento es mayor que cuando se genera una explicación antes de la etiqueta de destino. Es posible que este resultado deba ser más lógico y estar en desacuerdo con los hallazgos anteriores en estudios de cadena de pensamiento.

Finalmente, demostraron que estas explicaciones podrían producirse de manera eficiente utilizando modelos de lenguaje grandes, abriendo la puerta para implementar su enfoque en varios dominios y actividades de RI. Es importante destacar que nuestra técnica reduce drásticamente el tiempo necesario para volver a clasificar los pasajes porque solo se emplea el token verdadero/falso durante la inferencia. El repositorio adjunto hace que el código fuente y los conjuntos de datos utilizados en este estudio sean accesibles al público para análisis posteriores y mejoras del algoritmo ExaRanker. Han compartido un repositorio con la implementación del código y el conjunto de datos.