La batalla de los LLM: vicuña vs alpaca

Estás leyendo la publicación: La batalla de los LLM: vicuña vs alpaca

Los modelos de lenguaje grande se han convertido en el producto favorito de Internet. La tendencia impulsada por ChatGPT de OpenAI está siendo impulsada por modelos de código abierto, ya que el primero se niega a compartir los detalles. Aunque no se pueden usar comercialmente, dos modelos, Vicuna y Alpaca, lanzados en marzo lograron captar la atención de la comunidad de IA.

Meta ha roto moldes y ha demostrado su dedicación a la comunidad académica al abrir su último modelo, LLaMA. Los pesos del modelo están disponibles para los investigadores que los soliciten, preparando el escenario para los contendientes más nuevos en el ámbito de la IA. Stanford’s Alpaca and Vicuna-13B, que es un trabajo colaborativo de investigadores de UC Berkeley, CMU, Stanford y UC San Diego, cobró impulso poco después de su lanzamiento.

GitHub y códigos

La mejor parte de ambos modelos es que son de código abierto. Lo peor es que las condiciones de uso no permiten que los usuarios la comercialicen. Estos modelos han logrado llegar a los titulares también debido a sus bajos precios. El costo de capacitacion Los parámetros 7B y 13B de Vicuña son $140 y $300, respectivamente. Por otro lado, los parámetros 7B de Alpaca requieren $500 para datos y $100 para entrenamiento.

Vicuña y Alpaca códigos de entrenamiento están disponibles para uso público. Vicuña está entrenada en conversaciones compartidas por usuarios que consisten en 70k muestras Por el contrario, Alpaca aprovecha la autoinstrucción de davinci-003 API, que comprende 52k muestras

Mientras se escribía este artículo, Vicuña había 13.300 estrellas de GitHubmientras que Alpaca tenía 20.2k estrellas. Los repositorios contienen pesos, ajustes finos y códigos de generación de datos. La API también está disponible para Vicuña. Verificar Vicuña y de alpaca repositorios de GitHub.

GPT-4 piensa…

Mientras liberaban Vicuña, los investigadores evaluado usando GPT-4 mientras que Alpaca fue evaluado por un autor. Sin embargo, evaluar los chatbots de IA es como tratar de juzgar a un pez por su capacidad para trepar a un árbol. Hay que tener en cuenta muchas cosas, como las habilidades lingüísticas, el razonamiento y la comprensión del contexto. Los modelos se evaluaron sobre la base de nueve categorías, que van desde el sentido común hasta las matemáticas.

🔥 Recomendado:  3 razones por las que debe evitar los gráficos circulares a toda costa: hacia la IA

Según GPT-4, Alpaca obtuvo 7/10 y Vicuña-13B obtuvo 10/10 en ‘escritura’. Motivo: Alpaca proporcionó una descripción general de la publicación del blog de viajes, pero en realidad no compuso la publicación del blog según lo solicitado, por lo tanto, obtuvo una puntuación baja. Por otro lado, Vicuña compuso un blog detallado sobre un viaje reciente a Hawái, destacando experiencias culturales y atracciones imperdibles, que atendió completamente la solicitud del usuario, obteniendo una puntuación más alta.

A pesar de sus capacidades, ambos modelos tienen sus limitaciones. Vicuña es particularmente vulnerable a la contaminación de los datos de capacitación y puede requerir la creación de nuevos puntos de referencia para las pruebas.

En comparación, las respuestas de Alpaca suelen ser más cortas que las de ChatGPT, lo que refleja los resultados más cortos de text-davinci-003. El modelo también exhibe problemas comunes de modelos de lenguaje, que incluyen alucinaciones, toxicidad y estereotipos. La alucinación, en particular, parece ser un modo de falla común para Alpaca, incluso cuando se compara con text-davinci-003. Por ejemplo, Alpaca afirma erróneamente que la capital de Tanzania es Dar es Salaam, que fue la capital hasta 1974, cuando fue reemplazada por Dodoma. Los investigadores afirmaron que es probable que Alpaca tenga otras limitaciones asociadas tanto con el modelo de lenguaje subyacente como con los datos de ajuste de instrucciones.

En conclusión, si bien tanto la vicuña como la alpaca tienen sus fortalezas y limitaciones, es fundamental evaluar qué modelo se alinea con los requisitos de un proyecto en particular. Las conversaciones compartidas por los usuarios de Vicuna y la evaluación GPT4 son ventajosas, mientras que la autoinstrucción de Alpaca de la API davinci-003 es una característica única. Si bien los términos de uso pueden restringir la comercialización, la naturaleza de código abierto de Vicuna y Alpaca es valiosa.

Tabla de Contenido