Estás leyendo la publicación: Microsoft AI Research propone una solicitud extensible (X-Prompt) para solicitar un modelo de lenguaje grande (LLM) más allá del lenguaje natural (NL)
Debido a su capacidad para producir texto comparable al material escrito por humanos y su versatilidad en varias aplicaciones de procesamiento de lenguaje natural (NLP), los modelos de lenguaje extenso (LLM) se han vuelto extremadamente populares en los últimos años. Estos modelos ahora pueden descubrir correlaciones y patrones en texto de lenguaje natural que antes eran imposibles. Como resultado, se han creado varias aplicaciones prácticas, que incluyen respuesta a preguntas, resúmenes de texto y traducción de idiomas. La disponibilidad de una gran cantidad de datos para que los LLM se capaciten ha sido uno de los principales elementos que contribuyeron a su éxito. Estos modelos ahora se pueden entrenar gracias a la accesibilidad de hardware potente como unidades de procesamiento de gráficos (GPU) rápidamente. El éxito de los LLM también se ha visto influido significativamente por su capacidad para adaptarse a determinadas necesidades. Al entrenar un modelo previamente entrenado en un conjunto de datos más pequeño relevante para ese propósito, los programadores pueden modificarlo para realizar un objetivo particular, como el análisis de sentimientos o la categorización de texto. Como resultado, se han creado varias aplicaciones basadas en NLP que pueden adaptarse rápidamente a determinadas actividades y casos de uso.
Según investigaciones recientes, los modelos de lenguaje (LM) aprenden mejor del contexto a medida que aumenta el tamaño de su modelo. La característica emergente demuestra resultados prometedores en entornos de aprendizaje de cero y pocos disparos al permitir que un gran LM reciba instrucciones en tiempo de ejecución a través de un mensaje de lenguaje natural descriptivo (NL) para lograr su objetivo definido con una buena solidez fuera de distribución (OOD). . Sin embargo, solo a veces es simple desarrollar un indicador detallado, particularmente para actividades con criterios intangibles y detallados. Por ejemplo, a menos que el idioma sea muy conocido, no es fácil describir el estilo lingüístico de una persona utilizando NL para alentar a un LM a escribir en ese idioma (p. ej., el estilo de William Shakespeare). Sugieren el aviso extensible (X-Prompt), desarrollado para superar los obstáculos de presentar avisos más detallados. Además de presentar un léxico de términos ficticios, X-Prompt se diferencia de las indicaciones de NL en que ofrece una interfaz extensible para aumentar las capacidades descriptivas de las indicaciones. Como se muestra en la Tabla 1, es simple y adaptable para X-Prompt introducir una palabra imaginada2 que refleje el estilo de una persona en particular. Luego, esta palabra se puede combinar con diferentes contextos de solicitud para indicarle al LM que produzca el contenido dado en el idioma del usuario.
Realizan pruebas utilizando el caso de estudio de X-Prompts para la personalización del estilo. Demuestran que X-Prompt combina con éxito las ventajas de NL y las indicaciones suaves, ofreciendo una interfaz potencialmente ampliable para la interacción avanzada entre personas y LM masivos. También muestran que X-Prompt tiene fuertes capacidades descriptivas y una gran resistencia OOD. Sugieren el aprendizaje guiado por el contexto con aumento rápido para ayudar a que los términos imaginados aprendan hacia su uso generalizado contra el sobreajuste de datos de entrenamiento en distribución (ID) para garantizar que un X-Prompt pueda ser resistente a OOD como los mensajes de NL. Aconsejan usar X-Prompt, una interfaz versátil para solicitar un modelo de lenguaje significativo fuera del lenguaje natural. Más allá de la personalización de estilo, como en este trabajo, X-Prompt puede mejorar las capacidades de aprendizaje en contexto para manejar instrucciones más complejas para la personalización del modelo de lenguaje. Este trabajo aborda la interacción avanzada entre humanos y modelos de lenguaje grande (p. ej., generación de lenguaje creativo, parches de modelos de lenguaje con nuevos conocimientos de entidades y eventos, desintoxicación y eliminación de prejuicios en la generación de lenguaje).