Estás leyendo la publicación: Lista de modelos de IA conversacionales innovadores y de código abierto en el dominio del lenguaje
La IA conversacional se refiere a tecnología como un agente virtual o un chatbot que utiliza grandes cantidades de datos y procesamiento de lenguaje natural para imitar las interacciones humanas y reconocer el habla y el texto. En los últimos años, el panorama de la IA conversacional ha evolucionado drásticamente, especialmente con el lanzamiento de ChatGPT. Aquí hay algunos otros modelos de lenguaje grande (LLM) de código abierto que están revolucionando la IA conversacional.
- Fecha de lanzamiento: 24 de febrero de 2023
LLaMa es un LLM fundamental desarrollado por Meta AI. Está diseñado para ser más versátil y responsable que otros modelos. El lanzamiento de LLaMA tiene como objetivo democratizar el acceso a la comunidad investigadora y promover prácticas responsables de IA.
LLaMa está disponible en varios tamaños, con un número de parámetros que van desde 7B a 65B. El permiso para acceder al modelo se otorgará caso por caso a laboratorios de investigación de la industria, investigadores académicos, etc.
- Fecha de lanzamiento: 8 de marzo de 2023
Open Assistant es un proyecto desarrollado por LAION-AI para brindar a todos un excelente modelo de lenguaje grande basado en chat. A través de una amplia capacitación en grandes cantidades de texto y código, ha adquirido la capacidad de realizar diversas tareas, incluida la respuesta a consultas, la generación de texto, la traducción de idiomas y la producción de contenido creativo.
Aunque OpenAssistant aún se encuentra en la etapa de desarrollo, ya ha adquirido varias habilidades, como la interacción con sistemas externos como la Búsqueda de Google para recopilar información. Además, es una iniciativa de código abierto, lo que significa que cualquiera puede contribuir a su progreso.
- Fecha de lanzamiento: 8 de marzo de 2023
Dolly es un LLM de seguimiento de instrucciones desarrollado por Databricks. Está capacitado en la plataforma de aprendizaje automático Databricks con licencia para uso comercial. Dolly funciona con el modelo Pythia 12B y ha sido entrenada en una amplia gama de registros de instrucción/respuesta por un total aproximado de 15k. Aunque no es de vanguardia, el desempeño de Dolly en el seguimiento de instrucciones es de una calidad impresionante.
- Fecha de lanzamiento: 13 de marzo de 2023
Alpaca es un pequeño modelo de seguimiento de instrucciones desarrollado por Universidad Stanford. Se basa en el modelo LLaMa (parámetros 7B) de Meta. Está diseñado para funcionar bien en numerosas tareas de seguimiento de instrucciones y, al mismo tiempo, es fácil y económico de reproducir.
Aunque se parece al modelo text-davinci-003 de OpenAI, es significativamente más barato (<$600) de producir. El modelo es de código abierto y ha sido entrenado en un conjunto de datos de 52 000 demostraciones de seguimiento de instrucciones.
Vicuna ha sido desarrollado por un equipo de UC Berkeley, CMU, Stanford y UC San Diego. Es un chatbot que ha sido entrenado afinando el modelo LLaMa en conversaciones compartidas por usuarios y recopiladas de ShareGPT.
Basado en la arquitectura del transformador, Vicuna es un modelo de lenguaje autorregresivo y ofrece capacidades de conversación naturales y atractivas. Con parámetros 13B, produce respuestas más detalladas y mejor estructuradas que Alpaca, y su calidad es comparable a la de ChatGPT.
- Fecha de lanzamiento: 3 de abril de 2023
El Laboratorio de Investigación de Inteligencia Artificial de Berkeley (BAIR) ha desarrollado Koala, que es un modelo de diálogo basado en el Modelo LLaMa 13B. Está destinado a ser más seguro y más fácil de interpretar que otros LLM. Koala se ha ajustado con precisión en los datos de interacción disponibles gratuitamente, centrándose en los datos que incluyen la interacción con modelos de código cerrado de alta capacidad.
Koala es útil para estudiar la seguridad y el sesgo del modelo de lenguaje y comprender el funcionamiento interno de los modelos de lenguaje de diálogo. Además, Koala es una alternativa de código abierto a ChatGPT que incluye EasyLM, un marco para la capacitación y el ajuste de los LLM.
Eleuther AI ha creado un conjunto de modelos de lenguaje autorregresivos llamado Pythia, que están diseñados para apoyar la investigación científica. Pythia consta de 16 modelos diferentes que van desde los parámetros 70M a 12B. Todos los modelos se entrenan con los mismos datos y arquitectura, lo que permite realizar comparaciones y explorar cómo evolucionan con el escalado.
- Fecha de lanzamiento: 5 de abril de 2023
Together ha desarrollado OpenChatKit, un marco de desarrollo de chatbot de código abierto que tiene como objetivo simplificar y agilizar el proceso de creación de aplicaciones de IA conversacionales. El chatbot está diseñado para la conversación y la instrucción y se destaca en resumir, generar tablas, clasificar y dialogar.
Con OpenChatKit, los desarrolladores pueden acceder a una base sólida de código abierto para crear chatbots especializados y de uso general para diversas aplicaciones. El marco se basa en la arquitectura GPT-4 y está disponible en tres tamaños de modelo diferentes (parámetros 3B, 6B y 12B) para adaptarse a diversos recursos computacionales y requisitos de aplicación.
- Fecha de lanzamiento: 13 de abril de 2023
RedPajama es un proyecto creado por un equipo de Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research y MILA Québec AI Institute. Su objetivo es desarrollar modelos de código abierto de primer nivel, comenzando con la reproducción del conjunto de datos de entrenamiento de LLaMA que contiene más de 1,2 billones de tokens.
Este proyecto tiene como objetivo crear un modelo de lenguaje completamente abierto, replicable y de vanguardia con tres elementos esenciales: datos previos al entrenamiento, modelos base y datos y modelos de ajuste de instrucciones. Actualmente se puede acceder al conjunto de datos a través de Hugging Face, y los usuarios tienen la opción de replicar los resultados utilizando scripts de Apache 2.0, que están disponibles en GitHub.
- Fecha de lanzamiento: 19 de abril de 2023
StableLM es un modelo de lenguaje de código abierto desarrollado por Stability AI. El modelo está entrenado en un conjunto de datos experimentales tres veces más grande que el conjunto de datos de The Pile y es efectivo en tareas de conversación y codificación a pesar de su pequeño tamaño. El modelo viene en parámetros 3B y 7B, con modelos más grandes aún por venir.
StableLM puede generar tanto texto como código, lo que lo hace adecuado para varias aplicaciones posteriores. Stability AI también pone a disposición una serie de modelos de investigación perfeccionados a través de la instrucción, utilizando una combinación de cinco conjuntos de datos de código abierto actualizados diseñados específicamente para agentes conversacionales. Estos modelos perfeccionados son exclusivamente para investigación y están disponibles bajo una licencia CC BY-NC-SA 4.0 no comercial.