Estás leyendo la publicación: Los investigadores presentan ‘RANKGEN’: un modelo de codificador profundo (parámetros 1.2B) que asigna prefijos y generaciones de cualquier modelo de idioma inglés previamente entrenado a un vector compartido…
Los modelos de lenguaje (LM) son ampliamente utilizados para asignar probabilidades al texto. Los modelos de lenguaje actuales con frecuencia otorgan una alta probabilidad a las secuencias de salida que son repetitivas, sin sentido o no están relacionadas con el prefijo dado como secuencia de entrada, lo que da como resultado que el texto generado por el modelo contenga tales artefactos. Para resolver este problema, los investigadores de Google han propuesto el RANKGEN, un modelo codificador de 1200 millones de parámetros. Traduce las continuaciones de los prefijos escritas por humanos y generadas por modelos a un espacio vectorial común RANKGEN que realiza el producto punto de las generaciones con el prefijo y proporciona el rango para determinar la compatibilidad entre un prefijo particular y las generaciones de cualquier LM externo.
La contribución significativa de la investigación es utilizar el aprendizaje contrastivo a gran escala para entrenar RANKGEN, lo que alienta a los prefijos a estar más cerca de su continuación dorada y lejos de los negativos incorrectos, como se muestra en la figura 1. El objetivo principal es pronosticar dos secuencias en lugar de un solo token para la predicción. Por lo tanto, RANKGEN se inspira para intentar asociaciones de larga distancia entre el prefijo y la continuación en lugar de depender del contexto local.
La figura 1 muestra que se adoptan dos estrategias para las muestras negativas.
RANKGEN es una red codificadora profunda que utiliza un espacio vectorial común para sobresalir prefijos y generaciones. Las dos estrategias, es decir, negativos INBOOK y negativos GENERATIVOS, se adoptan para seleccionar las muestras negativas. Una entrada al RANKGEN son los vectores de tamaño fijo, es decir, el prefijo, la continuación de la verdad básica del prefijo y las continuaciones generadas por LM. Durante la fase de entrenamiento, un objetivo contrastivo dirige el vector de prefijo hacia el vector de continuación dorado mientras lo mantiene alejado del vector de generación y cualquier otro vector de continuación en un minilote similar. Una vez que se entrena el modelo, el producto escalar de los vectores RANKGEN de un prefijo y una continuación candidata representa su puntaje de compatibilidad.
Medir el rendimiento del enfoque propuesto. MAUVE, una métrica de creación de texto artificial con una excelente correlación con los juicios humanos, se utilizó para comparar las variaciones de RANKGEN y los algoritmos de decodificación de referencia. RANKGEN supera el núcleo y el muestreo típico por un amplio margen. También supera a otros métodos de reclasificación, como los basados en la perplejidad de LM y la superposición de unigramas. El puntaje MAUVE promedio más alto de 85.0 se obtiene al incluir RANKGEN en la búsqueda de haz. A pesar de esto, la evaluación humana se realiza a través de pruebas A/B ciegas para verificar si las personas prefieren las continuaciones decodificadas con RANKGEN en lugar de las continuaciones con muestras de núcleo. A partir de los resultados, se muestra que las personas prefieren mucho los resultados de RANKGEN al muestreo del núcleo con un 74,5 % de afición por voto mayoritario, p < 0,001.
El análisis de los resultados adquiridos se realiza para tener una idea de las cualidades de RANKGEN. Para comprender mejor el juicio humano, los anotadores explican que el enfoque propuesto proporciona al texto una mejor continuidad y fluidez con el prefijo, menos errores de sentido común y menos repeticiones y contradicciones. En comparación con el intercambio de tiempo, RANKGEN toma una fracción más de tiempo que las técnicas más modernas.
A pesar de usar el RANKGEN solo para la generación de texto, también se puede utilizar como un recuperador y para la identificación de sufijos. Pero aún así, se enfrenta a limitaciones en comparación con otros métodos de decodificación, es decir, la necesidad de sobregeneración. Si bien RANKGEN es eficiente por sí mismo, la producción de numerosas muestras aumenta significativamente el tiempo de decodificación. Además, RANKGEN puede estar sujeto a instancias contradictorias, como escritura confusa que recibe una puntuación alta de RANKGEN debido a ataques de caja blanca.
Se propone RANKGEN, una red neuronal de codificador profundo, que proporciona puntajes para continuaciones dado un prefijo como entrada, y puede integrarse fácilmente en el sistema de generación de texto. Supera considerablemente a las técnicas más avanzadas para la evaluación automática y manual. Esta investigación se puede ampliar aún más para entrenar modelos RANKGEN grandes (T5-XXL) con una mayor longitud de prefijo y sufijo, descubriendo los otros usos de RANKGEN como la generación de diálogos, etc.
Este artículo está escrito como un artículo resumido por el personal de Marktechpost basado en el documento ‘RANKGEN: mejora de la generación de texto con modelos de clasificación grandes‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, github.
Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools