Estás leyendo la publicación: Guanaco emerge como un competidor potencial de ChatGPT de código abierto
Investigadores de la Universidad de Washington han revelado guanaco, un chatbot de código abierto que tiene como objetivo competir con el rendimiento de ChatGPT al tiempo que reduce significativamente el tiempo y los recursos necesarios para la capacitación. Nombrado en honor a un pariente sudamericano de las llamas, Guanaco se basa en el modelo de lenguaje LLaMA e incorpora un novedoso método de ajuste llamado QLoRA.
Los creadores de Guanaco afirman que logra un rendimiento comparable al de ChatGPT pero que se puede entrenar en un solo día. Esta notable hazaña es posible gracias a QLoRA, una técnica de ajuste fino del modelo de lenguaje que reduce sustancialmente la cantidad de memoria GPU necesaria para el entrenamiento. Mientras ChatGPT requiere la friolera de 780 GB de memoria GPU para un modelo con 65 mil millones de parámetros, la versión más simple de Guanaco solo requiere 5 GB.
Con estas impresionantes mejoras en la eficiencia, Guanaco y modelos de código abierto similares están desafiando la noción de que se necesita una capacitación costosa para los modelos de lenguaje de última generación. El surgimiento del guanaco, Alpacay Otros modelos ese tren a una fracción del costo ha llevado a especular sobre el futuro de modelos costosos como GPT.
Sin embargo, no todos están de acuerdo con esta visión optimista de los modelos de código abierto. Un estudio reciente realizado por la Universidad de California ha puesto en duda sobre las capacidades de modelos como las alpacas y planteó preguntas sobre su verdadero potencial. Inicialmente, los investigadores llegaron a una conclusión similar a la de los creadores de Guanaco: cuando se entrenan adecuadamente, los modelos de código abierto pueden competir con GPT en capacidades. Otras pruebas revelaron una limitación significativa. Estos modelos “Dolly”, como a veces se les llama, son expertos en imitar soluciones a problemas que han encontrado durante el entrenamiento. Sin embargo, luchan por desempeñarse bien en tareas a las que no han sido expuestos explícitamente, quedando rezagados con respecto a modelos más avanzados.
Esta revelación sugiere que el millones invertidos en formación GPT y modelos similares pueden no haber sido en vano. Si bien Guanaco y sus contrapartes demuestran resultados prometedores, todavía hay áreas donde sobresalen modelos más sofisticados. Vale la pena señalar que la investigación realizada por la Universidad de California desafía la idea predominante de que los modelos de código abierto pueden reemplazar por completo a modelos costosos como GPT.
A medida que evolucione el campo del procesamiento del lenguaje natural, será interesante ver cómo Guanaco y otros modelos de código abierto se comparan con puntos de referencia establecidos como ChatGPT. La alta tasa de innovación y la investigación continua, sin lugar a dudas, afectarán el futuro de los modelos de lenguaje y determinarán qué modelos se convertirán en la opción preferida para aplicaciones particulares.
- Dolly 2.0, el primer Chat-LLM 12B de código abierto disponible comercialmente, ha sido anunciado por Databricks. Este es un avance significativo para la industria del aprendizaje automático, que permite a las empresas crear modelos de lenguaje efectivos sin invertir en costosos clústeres de GPU. Databricks contrató a 5000 empleados para crear su modelo de lenguaje de código abierto, que incluía el modelo de lenguaje Pythia-12B de EleutherAI bajo una licencia del MIT. Dolly 2.0, así como el código asociado, está disponible bajo una licencia MIT. Dolly 2.0 tiene el potencial de cambiar la industria y es un importante paso adelante para el aprendizaje automático.
Lea más sobre la IA: