Estás leyendo la publicación: LLM de Falcon de código abierto del Instituto de Innovación Tecnológica: un nuevo modelo de IA que utiliza solo el 75 por ciento de la computación de entrenamiento de GPT-3, el 40 por ciento de la de Chinchilla y…
Halcón-40B
Falcon-40B es un poderoso modelo solo de decodificador desarrollado por TII (Instituto de Innovación Tecnológica) y entrenado en una gran cantidad de datos que consisten en 1,000B tokens de RefinedWeb y corpus seleccionados. Este modelo está disponible bajo la licencia TII Falcon LLM.
El modelo Falcon-40B es uno de los mejores modelos de código abierto disponibles. Supera a otros modelos como LLaMA, StableLM, RedPajama y MPT en rendimiento, como se demuestra en la tabla de clasificación de OpenLLM.
Una de las características notables de Falcon-40B es su arquitectura optimizada para inferencia. Incorpora FlashAttention, como fue presentado por Dao et al. en 2022, y multiconsulta, como describen Shazeer et al. en 2019. Estas mejoras arquitectónicas contribuyen al rendimiento y la eficiencia superiores del modelo durante las tareas de inferencia.
Es importante tener en cuenta que Falcon-40B es un modelo en bruto, preentrenado, y normalmente se recomienda un ajuste más fino para adaptarlo a casos de uso específicos. Sin embargo, para aplicaciones que involucran instrucciones genéricas en formato de chat, una alternativa más adecuada es Falcon-40B-Instruct.
Falcon-40B está disponible bajo la licencia TII Falcon LLM, que permite el uso comercial del modelo. Los detalles sobre la licencia se pueden obtener por separado.
Próximamente se publicará un documento con más detalles sobre el Falcon-40B. La disponibilidad de este modelo de código abierto de alta calidad presenta un recurso valioso para investigadores, desarrolladores y empresas en varios dominios.
Halcón 7B
Falcon-7B es un modelo TII (Instituto de Innovación Tecnológica) altamente avanzado de decodificador causal desarrollado. Cuenta con un recuento de parámetros impresionante de 7B y ha sido entrenado en un extenso conjunto de datos de 1500B tokens derivados de RefinedWeb, mejorado aún más con corpus curados. Este modelo está disponible bajo la licencia TII Falcon LLM.
Una de las principales razones para elegir Falcon-7B es su rendimiento excepcional en comparación con otros modelos de código abierto similares como MPT-7B, StableLM y RedPajama. La amplia capacitación en el conjunto de datos enriquecido de RefinedWeb contribuye a sus capacidades superiores, como se demuestra en la tabla de clasificación de OpenLLM.
Falcon-7B incorpora una arquitectura explícitamente optimizada para tareas de inferencia. El modelo se beneficia de la integración de FlashAttention, una técnica introducida por Dao et al. en 2022, y multiconsulta, como describen Shazeer et al. en 2019. Estos avances arquitectónicos mejoran la eficiencia y eficacia del modelo durante las operaciones de inferencia.
Vale la pena señalar que Falcon-7B está disponible bajo la licencia TII Falcon LLM, que otorga permiso para la utilización comercial del modelo.
La información detallada sobre la licencia se puede obtener por separado.
Si bien aún no se ha publicado un documento que brinde información detallada sobre Falcon-7B, las características y el rendimiento excepcionales del modelo lo convierten en un activo invaluable para investigadores, desarrolladores y empresas en varios dominios.