Investigadores de Stanford lanzan Alpaca: un modelo de seguimiento de instrucciones basado en Meta AI LLaMA 7B

Estás leyendo la publicación: Investigadores de Stanford lanzan Alpaca: un modelo de seguimiento de instrucciones basado en Meta AI LLaMA 7B

Ha habido un aumento en la eficacia de los modelos de seguimiento de instrucciones como GPT-3.5 (text-da Vinci-003), ChatGPT, Claude y Bing Chat. Estas versiones ahora son ampliamente utilizadas por los consumidores a diario, y algunos incluso las llevan al lugar de trabajo. A pesar de su popularidad, los modelos de seguimiento de instrucciones todavía tienen fallas significativas. Estos incluyen entrenarlos para entregar resultados engañosos, lo que puede perpetuar estereotipos sociales dañinos y lenguaje venenoso.

La capacitación de un modelo de seguimiento de instrucción de alta calidad con el presupuesto de un estudiante es difícil porque requiere un poderoso modelo de lenguaje preentrenado y abundantes datos de seguimiento de instrucción de alta calidad. Debido a la falta de un modelo disponible públicamente con características comparables a los modelos de código cerrado como el texto-DaVinci-003 de OpenAI, la investigación académica sobre modelos de seguimiento de instrucciones se ha visto obstaculizada.

Reciente Instituto de Stanford para la inteligencia artificial centrada en el ser humano (HAI) research lanzó Alpaca, un modelo de seguimiento de instrucciones basado en Meta AI LLaMA 7B. Utilizando el texto-da-Vinci-003 de OpenAI, los investigadores crearon 52K demostraciones de seguimiento de instrucciones en el estilo de autoinstrucción, que se utilizó para entrenar el modelo Alpaca. Alpaca exhibe muchos de los mismos comportamientos que el texto-DaVinci-003 de OpenAI en el conjunto de evaluación de autoinstrucciones, pero es notablemente compacto y simple/económico de reproducir.

Como datos, el equipo creó ejemplos de seguimiento de instrucciones ampliando el enfoque de autoinstrucción. Primero, utilizaron el conjunto de semillas de autoinstrucciones, que consta de 175 pares de instrucciones-salidas escritos por humanos. El conjunto de semillas se introdujo en text-DaVinci-003, que generó más instrucciones basadas en esos ejemplos. Simplificaron el canal de generación para hacerlo más eficiente que la técnica de autoinstrucción y redujeron significativamente su precio. Usando la API de OpenAI, los investigadores desarrollaron 52K instrucciones únicas y sus resultados relacionados por menos de $500.

🔥 Recomendado:  Cómo encontrar un socio comercial

Mediante el uso de la arquitectura y los métodos de entrenamiento de Hugging Face, como el entrenamiento de precisión mixto y datos paralelos totalmente fragmentados, refinaron los modelos LLaMA con la ayuda de este conjunto de datos de personas que obedecen instrucciones. Para su primera ejecución, se usaron 8 A100 de 80 GB, que es menos de $ 100 en la mayoría de los proveedores de computación en la nube, para ajustar un modelo LLaMA 7B. El equipo reconoce margen de mejora en la eficiencia de la formación, lo que podría conducir a mayores ahorros.

Se adoptó el método de evaluación humana (realizado por los 5 estudiantes escritores) en las entradas del conjunto de evaluación de autoinstrucción para determinar qué tan bien se desempeña la Alpaca. Los creadores de las guías de autoaprendizaje compilaron este conjunto de evaluación, que ofrece orientación sobre una amplia variedad de temas, como la redacción de correos electrónicos, las redes sociales y el software de productividad. A través de una comparación ciega por pares, se observó que text-da-vinci-003 y Alpaca 7B funcionaron de manera similar.

Además de utilizar este conjunto de evaluación estática, los investigadores han realizado pruebas de modelos interactivos de Alpaca. Descubrieron que a menudo exhibe un comportamiento consistente con text-davinci-003 en varias entradas.

Alpaca comparte muchas de las deficiencias de los modelos de lenguaje con otros idiomas, como su tendencia a la ilusión, la toxicidad y los estereotipos. Incluso en comparación con text-da-vinci-003, la alucinación es un modo de falla particularmente frecuente para Alpacas.

El equipo planea aprender cómo la receta de capacitación produce talentos en su trabajo futuro. Con técnicas como la formación automática de equipos rojos, la auditoría y las pruebas adaptativas, también tienen como objetivo comprender mejor las amenazas que plantea Alpaca y reducirlas.

🔥 Recomendado:  Los investigadores del Sony Computer Science Lab (CSL) han desarrollado un modelo basado en el aprendizaje automático llamado "SampleMatch", que puede recuperar automáticamente muestras de batería que coinciden con una pista de música específica...

Revisar la Github, demostración de miércoles y Blog. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 16k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools