Estás leyendo la publicación: ¿Qué es el transformador de inserción generativo?
La anotación continua de datos de usuario es un desafío al implementar técnicas de NLU a escala en aplicaciones comerciales. Los modelos deben volver a entrenarse y actualizarse para mantener el rendimiento en un nivel óptimo. Sin embargo, el proceso es costoso, laborioso y requiere mucho tiempo. Además, con las crecientes preocupaciones sobre la privacidad, la revisión manual de los datos de usuario necesarios para la anotación no es lo ideal.
Investigadores de Amazon y la Universidad de Massachusetts Lowell han propuesto un modelo generativo para producir datos sintéticos etiquetados. La idea es mejorar la solidez y el rendimiento del modelo generando expresiones sintéticas y aumentando los datos de entrenamiento originales.
Aumento sintético con GIT
El Transformador de inserción generativo (GIT) se basa en un modelo de transformador de inserción no autorregresivo que amplía la idea para resolver el problema de la NLU inversa mediante la producción de expresiones de datos etiquetadas válidas que coincidan con la anotación con una plantilla dada.
Fuente: amazon.science
En este modelo generativo, el decodificador genera una secuencia insertando fichas entre fichas generadas previamente. Los tokens del transportista se insertan entre etiquetas en la plantilla de forma iterativa. El proceso de inserción en cada posición del enunciado es independiente de cualquier otra posición y se detiene cuando se genera el token EOS en todas las posiciones, lo que da como resultado un enunciado sintético completamente anotado que se puede aumentar directamente con datos reales para fines de creación de modelos.
El proceso se puede dividir en tres secciones:
Pre-entrenamiento: GIT se entrena previamente con el codificador BERT y el objetivo KERMIT en una tarea de LM no supervisada: dada una oración con tokens enmascarados, GIT se entrena para insertar los tokens enmascarados. En este modelo se configuran dos pruebas:
- Pre-entrenamiento usando solo Wikipedia en inglés
- Pre-entrenamiento usando un corpus interno de 800 millones de expresiones sin etiquetar muestreadas aleatoriamente de solicitudes de Alexa no identificadas, usando modelos pre-entrenados de Wikipedia en inglés como inicialización.
Sintonia FINA: El modelo GIT previamente entrenado se ajusta para cada dominio utilizando datos reales anotados. Se proporciona una plantilla como entrada de modelo para cada enunciado y el enunciado completo como salida. Durante el entrenamiento, en cada ranura de inserción, hay varios tokens candidatos de la verdad del suelo, a diferencia de la generación autorregresiva, que implica un solo token por paso de generación. La distribución de verdad básica establece las probabilidades de los tokens no candidatos en 0 y pondera uniformemente todas las probabilidades de los tokens candidatos.
Generación: Para generar datos sintéticos para NLU, se construye una plantilla que contiene la intención, los tipos de ranura y los valores de ranura deseados para el ejemplo sintético. Esta secuencia de preparación se proporciona como entrada al decodificador, que inserta tokens de portador de forma iterativa para formar una expresión coherente. El proceso de generación aborda tanto la proyección de etiquetas como los desafíos de control de entidades. Las plantillas utilizadas en la inferencia se construyen a partir de datos reales reducidos.
Actuación
Para estudiar la eficacia de los datos generados sintéticamente, se evaluó el rendimiento del modelo NLU en un régimen de datos reducido. Para cada dominio, se construyen múltiples modelos IC-NER utilizando todos los datos reales, un conjunto reducido de datos reales y una combinación de datos reales y sintéticos. Todos los modelos dentro de un dominio comparten los mismos hiperparámetros de entrenamiento, incluidos la arquitectura y el codificador. Solo se diferencian en la composición de los datos de entrenamiento.
Conclusión
Los investigadores demostraron que DA usa GIT como una técnica factible de generación de datos para mitigar los volúmenes de anotación reducidos para las tareas de IC y NER. Los modelos NLU se entrenaron con un 33 % de datos reales y los datos sintéticos se desempeñaron a la par de los modelos entrenados con datos reales completos. Además, en los dominios con las regresiones SemER más altas, la calidad de los datos sintéticos mejoró al filtrarlos con puntajes de confianza del modelo. Entre los dominios que se benefician de los datos sintéticos, la inserción adecuada del token de portador mejoró la semántica de las expresiones y su valor como muestras de entrenamiento. El futuro representa la generación de datos con entidades reemplazadas a través del muestreo de la base de conocimientos. Este control más preciso sobre las entidades admite la expansión de nuevas funciones y mejora la privacidad del cliente.