Estás leyendo la publicación: Preentrenamiento, solicitud y predicción – Parte 1 – Hacia la IA
Publicado originalmente en Hacia la IA.
Preentrenar, solicitar y predecir: parte 1
Los 4 paradigmas de la PNL
(Esta es una serie de varias partes que describe el paradigma de las indicaciones en la PNL. El contenido está inspirado en este papel (un documento de encuesta que explica los métodos de incitación en PNL)
me encontré con esto papel maravilloso en Incitar mientras realiza este increíble curso sobre PNL Avanzado (UMass). Al ser un documento de encuesta, han dado una explicación holística de este último paradigma en PNL.
A lo largo de varios artículos, discutiremos los aspectos más destacados del documento y aprenderemos por qué las indicaciones se consideran “el segundo cambio radical en la PNL”.
Para apreciar lo que está incitando y comenzar, la Parte 1 analiza 4 paradigmas principales que han ocurrido en los últimos años.
Empecemos !!
Aprendizaje totalmente supervisado (red no neuronal)
– energizado por –
Ingeniería de características
- Aprendizaje supervisado ejemplos de entrada-salida requeridos para entrenar el modelo.
- En la era Pre-Neural-Network, estos modelos de PNL requerían
ingeniería de funciones, donde los investigadores de PNL utilizan el conocimiento del dominio para extraer características de datos limitados e infundir un sesgo inductivo en el modelo - Había NO Relación entre los modelos de lenguaje y las tareas posteriores que fueron resueltos. Cada tarea tenía que tener su propio modelo entrenado
Aprendizaje totalmente supervisado (red neuronal)
– energizado por –
Ingenieria arquitectonica
- Llegaron las redes neuronales y con ellas el aprendizaje automático de funciones a partir de datos de entrenamiento. La ingeniería manual de funciones ya no era necesaria
- El foco se desplazó a Ingenieria arquitectonica, donde se diseñaron arquitecturas NN para proporcionar el sesgo inductivo adecuado al modelo
- De nuevo, No hay relación entre el entrenamiento de los modelos de lenguaje y la resolución de las tareas posteriores. Cada tarea se resolvió utilizando su propia arquitectura modelo.
Preentrenamiento y ajuste fino
– energizado por –
Ingeniería objetiva
- Esta fue la primera vez que se entrenó previamente un modelo de lenguaje en datos masivos y luego se adaptó a tareas posteriores mediante el ajuste fino utilizando objetivos específicos de la tarea.
- El foco se desplazó a Ingeniería objetivadiseñando objetivos de formación tanto en la fase de preformación como en la de puesta a punto
- El siguiente diagrama muestra cómo los modelos de lenguaje juegan un papel central en este paradigma. El entrenamiento no supervisado de LM se combina con el ajuste fino supervisado específico de la tarea
Pre-entrenamiento, Aviso, Predecir
– energizado por –
Ingeniería rápida
- En lugar de adaptar LM a una tarea específica a través de la ingeniería objetiva, las tareas posteriores se reformulan mediante una indicación textual.
Ej.: Para encontrar la emoción de “Perdí el autobús hoy”, alimenta el modelo “Perdí el autobús hoy. Me sentí tan _____”. El LM entrenado intentará llenar el espacio en blanco con la emoción apropiada, eventualmente dándonos la emoción de la entrada. - Esto no requiere ningún entrenamiento específico para la tarea.
- Esto requiere un enfoque en Ingeniería rápida ya que el indicador debe diseñarse correctamente para obtener la respuesta adecuada / deseada del modelo.
¡¡Eso es todo por la Parte 1!! En la Parte 2, nos sumergiremos en las indicaciones, sus conceptos básicos, sus aplicaciones, varias consideraciones de diseño al diseñar indicaciones, etc.
Sígueme y Suscribir para que no se pierda la serie Prompting y los próximos artículos sobre ML/NLP
Preentrenamiento, aviso y predicción: la Parte 1 se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.
Publicado a través de Hacia la IA