Estás leyendo la publicación: Google AI presenta PRESTO: un conjunto de datos de más de medio millón de conversaciones multilingües contextuales entre humanos y asistentes virtuales
Los avances tecnológicos recientes han ampliado significativamente la cantidad de formas en que la inteligencia artificial y el aprendizaje automático pueden integrarse en nuestras vidas. Un ejemplo bien conocido es el uso generalizado de asistentes virtuales como Amazon Alexa, Google Assistant y Samsung Bixby en la vida diaria. Estos agentes virtuales son extremadamente beneficiosos para realizar desde las tareas más pequeñas, como configurar un recordatorio para el cumpleaños de alguien, hasta tareas más complejas, como ayudar a las personas con discapacidad a navegar por sus hogares y otros alrededores. Sin embargo, a pesar de que los asistentes virtuales están prácticamente en todas partes ahora, se requiere mucho trabajo e investigación para desarrollarlos detrás de escena. Esta categoría de capacitación de asistentes virtuales para usar lenguaje natural y analizarlo utilizando un modelo para comprender la intención del usuario y realizar la tarea en cuestión a menudo se incluye en la tarea de análisis de diálogo orientada a tareas. Sin embargo, comprender lo que el usuario quiere y la información que necesita el modelo para completar esa tarea con una precisión sorprendente es una tarea desafiante.
En el pasado, el uso de conjuntos de datos de propósito especial como MultiWOZ, SMCalFlow, etc., hizo posible manejar conversaciones orientadas a tareas. Sin embargo, los experimentos demostraron varios inconvenientes asociados con dichos conjuntos de datos porque carecen de fenómenos del habla. Estos incluyen varias revisiones del diálogo del usuario, la combinación de códigos y el uso de contextos estructurados, como notas, contactos, etc. Por ejemplo, un asistente virtual puede malinterpretar ocasionalmente el contexto del usuario y marcar el número incorrecto. Como resultado, el usuario deberá reformular su discurso para corregir el error del asistente. Además, el asistente virtual debe tener los conocimientos suficientes para comprender que, para completar con éxito el trabajo que tiene entre manos, necesita acceder a los contactos guardados del usuario. Como resultado, los modelos desarrollados con dichos conjuntos de datos suelen funcionar mal, lo que provoca el descontento de los clientes en general. Para resolver este problema, un equipo de Google Research ha trabajado en el desarrollo de un nuevo conjunto de datos multilingüe, PRESTO, para analizar diálogos realistas orientados a tareas. El conjunto de datos incluye más de 550 000 conversaciones multilingües realistas entre humanos y asistentes virtuales, junto con un conjunto diverso de escenarios conversacionales que un usuario puede encontrar al interactuar con un agente virtual. Estos incluyen falta de fluidez, mezcla de códigos y revisiones de usuarios. Sin embargo, ¡esto no es todo! PRESTO es el único conjunto de datos de conversación generado por humanos a gran escala con un contexto estructurado relacionado, como los contactos de los usuarios y las notas asociadas con cada punto de datos.
El conjunto de datos de PRESTO abarca seis idiomas: inglés, francés, alemán, hindi, japonés y español. Uno de los aspectos más encomiables del conjunto de datos es que, a diferencia de conjuntos de datos anteriores que solo traducían declaraciones del inglés a otros idiomas, todas las conversaciones fueron capturadas por hablantes nativos de los idiomas mencionados anteriormente. Esto es especialmente útil para capturar patrones de habla y otras diferencias sutiles entre hablantes nativos de diferentes idiomas y hablantes de inglés cuando conversan. Además, para crear un conjunto de datos único, los investigadores de Google también incluyeron un contexto estructurado circundante. Las interacciones previas con agentes virtuales han demostrado que los usuarios usan con frecuencia información como notas, contactos, etc. Sin embargo, si un agente no puede acceder a estos recursos, pueden ocurrir errores de análisis, lo que hará que el usuario revise su declaración. Para evitar este tipo de insatisfacción del usuario, PRESTO incluye tres tipos de contexto estructurado: notas, contactos y expresiones del usuario y sus análisis. Estas listas, notas y contactos fueron creados por hablantes nativos de cada idioma, lo que lo convierte en un conjunto de datos único y valioso.
Además, suponiendo que surja la necesidad de que un usuario revise o modifique su expresión mientras habla con un asistente virtual. En ese caso, PRESTO también incluye anotaciones que revelan qué conversaciones tuvieron alguna revisión del usuario. La necesidad de modificaciones suele ser el resultado de una de dos situaciones: el asistente virtual no entendió la intención del usuario o el usuario cambió de opinión a mitad de la declaración. Tener anotaciones explícitas para tales revisiones ayuda significativamente a capacitar a mejores agentes virtuales al mejorar su comprensión del lenguaje natural. La combinación de códigos es otro problema común asociado con las expresiones que PRESTO busca abordar. Investigaciones anteriores han demostrado que muchos usuarios bilingües tienden a cambiar de idioma mientras hablan con asistentes virtuales. PRESTO maneja esto anotando expresiones de código mixto, que representan aproximadamente el 14 % del conjunto de datos, con la ayuda de sus contribuyentes de datos bilingües. El conjunto de datos también incluye conversaciones con falta de fluidez en forma de frases repetidas o palabras de relleno en los seis idiomas para producir un conjunto de datos más variado.
Para sus experimentos, los investigadores de Google emplearon modelos basados en mT5 que habían sido entrenados en PRESTO. Para evaluar su conjunto de datos, el equipo desarrolló conjuntos de prueba explícitos para investigar individualmente el rendimiento del modelo, centrándose en cada fenómeno: revisiones de usuarios, cambio de código, falta de fluidez, etc. Los resultados mostraron que cuando los fenómenos objetivo no se incluyen en el conjunto de entrenamiento, cero -el rendimiento de disparo es deficiente, lo que requiere el uso de tales expresiones para mejorar el rendimiento. Además, los resultados mostraron que, si bien algunos fenómenos, como la combinación de códigos, requieren una gran cantidad de datos de entrenamiento, otros, como las revisiones de los usuarios y las faltas de fluidez, son más simples de modelar con muestras de pocas tomas.
En pocas palabras, PRESTO representa un importante paso adelante en el estudio del análisis de expresiones de usuario sofisticadas y realistas. El conjunto de datos contiene una serie de conversaciones que ilustran magníficamente una variedad de puntos débiles que los usuarios experimentan con frecuencia en sus conversaciones habituales con asistentes virtuales y que faltan en otros conjuntos de datos en el campo de la PNL. Al abordar los problemas a los que se enfrentan a diario los usuarios que tratan con agentes virtuales, Google Research espera que la comunidad académica utilice su conjunto de datos para avanzar en el estado actual de la investigación sobre la comprensión del lenguaje natural.