Estás leyendo la publicación: OpenAI lanza un poderoso chatbot ChatGPT AI
ChatGPT, a diferencia de GPT-3, es un modelo que se ha enseñado cuidadosamente para llevar a cabo un chat interactivo y mantener el flujo del discurso. El modelo utilizado para entrenar ChatGPT, que se entrenó a principios de 2022, es del GPT-3.5 serie.
El formato de diálogo permite a ChatGPT responder a consultas adicionales, reconocer sus errores, refutar suposiciones falsas y rechazar solicitudes irrelevantes. El chatbot es muy inteligente y puede crear cartas, inventar chistes divertidos y responder consultas.
Al igual que InstructGPT, OpenAI usó el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) para entrenar este modelo, con algunas variaciones menores en el arreglo de recopilación de datos. OpenAI utiliza un ajuste fino supervisado para entrenar un modelo inicial al hacer que los entrenadores humanos de IA actúen como usuario y asistente de IA en los chats. Proporcionó a los capacitadores acceso a ejemplos de recomendaciones de escritura para ayudarlos a crear sus respuestas.
Algunas muestras de diálogo se muestran en las imágenes.
Fue necesario recopilar datos de comparación, que consistieron en dos o más respuestas modelo calificadas por calidad, para desarrollar un modelo de recompensa para el aprendizaje por refuerzo. Los desarrolladores registraron las discusiones que los entrenadores de IA realizaron con el chatbot para recopilar esta información. Los creadores eligieron una declaración escrita por modelo al azar, probaron una serie de posibles conclusiones y pidieron a los entrenadores de IA que las clasificaran. Puede ajustar el modelo usando la Optimización de Política Proximal utilizando estos modelos de recompensa.
Habla con este chatbot aquí mismo. Sin embargo, los servidores están actualmente llenos.
Lea más sobre GPT-3: