Principales modelos de lenguajes grandes (LLM) en 2023 de OpenAI, Google AI, Deepmind, Anthropic, Baidu, Huawei, Meta AI, AI21 Labs, LG AI Research y NVIDIA

Estás leyendo la publicación: Principales modelos de lenguajes grandes (LLM) en 2023 de OpenAI, Google AI, Deepmind, Anthropic, Baidu, Huawei, Meta AI, AI21 Labs, LG AI Research y NVIDIA

Los modelos de lenguaje grande son programas de computadora que pueden analizar y crear texto. Están capacitados utilizando cantidades masivas de datos de texto, lo que los ayuda a mejorar en tareas como generar texto. Los modelos de lenguaje son la base de muchas actividades de procesamiento de lenguaje natural (NLP), como la conversión de voz a texto y el análisis de sentimientos. Estos modelos pueden mirar un texto y predecir la siguiente palabra. Ejemplos de LLM incluyen ChatGPT, LaMDA, PaLM, etc.

Los parámetros en LLM ayudan al modelo a comprender las relaciones en el texto, lo que les ayuda a predecir la probabilidad de secuencias de palabras. A medida que aumenta el número de parámetros, también aumenta la capacidad del modelo para capturar relaciones complejas y su flexibilidad para manejar palabras raras.

ChatGPT

ChatGPT es un chatbot de código abierto impulsado por el modelo de lenguaje GPT-3. Es capaz de entablar conversaciones en lenguaje natural con los usuarios. ChatGPT está capacitado en una amplia gama de temas y puede ayudar con diversas tareas, como responder preguntas, brindar información y generar contenido creativo.

Está diseñado para ser amigable y útil y puede adaptarse a diferentes estilos y contextos de conversación. Con ChatGPT, uno puede tener conversaciones interesantes e informativas sobre temas como las últimas noticias, eventos actuales, pasatiempos e intereses personales.

GPT-3 frente a ChatGPT

  • GPT-3 es un modelo de propósito más general que se puede usar para una amplia gama de tareas relacionadas con el lenguaje. ChatGPT está diseñado específicamente para tareas de conversación.
  • ChatGPT está entrenado en una cantidad menor de datos que GPT-3.
  • GPT-3 es más poderoso que ChatGPT, ya que tiene 175B parámetros, en comparación con ChatGPT, que solo tiene 1.5B parámetros

Algunas herramientas de IA que utilizan el modelo GPT-3:

Jaspe

Jasper es una plataforma de IA que permite a las empresas crear rápidamente contenido personalizado, publicaciones de blog, copias de marketing e imágenes generadas por IA. Jasper AI se construyó sobre el modelo GPT-3 de OpenAI y, a diferencia de ChatGPT, no es gratuito.

escritura sónica

Writesonic es otro modelo que utiliza el modelo GPT-3. Puede crear contenido de calidad para redes sociales y sitios web. Los usuarios pueden escribir textos de marketing optimizados para SEO para sus blogs, ensayos, anuncios de Google y correos electrónicos de ventas para aumentar los clics, las conversiones y las ventas.

🔥 Recomendado:  Las 15 mejores herramientas de marketing en redes sociales

Creador automático de bots

Auto Bot Builder de Gupshup es una herramienta que aprovecha el poder de GPT-3 para crear automáticamente chatbots avanzados adaptados a las necesidades de las empresas.

LaMDA

LaMDA es una familia de modelos basados ​​en Transformer que está especializada para el diálogo. Estos modelos tienen hasta 137B de parámetros y se entrenan con 1,56T de palabras de datos de diálogo público. LaMBDA puede entablar conversaciones fluidas sobre una amplia variedad de temas. A diferencia de los chatbots tradicionales, no se limita a rutas predefinidas y puede adaptarse a la dirección de la conversación.

BARDO

Bard es un chatbot que utiliza el aprendizaje automático y el procesamiento del lenguaje natural para simular conversaciones con humanos y brindar respuestas a las preguntas. Se basa en la tecnología LaMDA y tiene el potencial de proporcionar información actualizada, a diferencia de ChatGPT, que se basa en datos recopilados solo hasta 2021.

Palmera

PaLM es un modelo de lenguaje con parámetros 540B que es capaz de manejar varias tareas, incluido el aprendizaje y el razonamiento complejos. Puede superar a los modelos de lenguaje de última generación y a los humanos en las pruebas de lenguaje y razonamiento. El sistema PaLM utiliza un enfoque de aprendizaje de pocos disparos para generalizar a partir de pequeñas cantidades de datos, aproximando cómo los humanos aprenden y aplican el conocimiento para resolver nuevos problemas.

mT5

T5 multilingüe (mT5) es un modelo de transformador de texto a texto que consta de parámetros 13B. Está entrenado en el mC4 corpus, que cubre 101 idiomas como amárico, vasco, xhosa, zulú, etc. mT5 es capaz de lograr un rendimiento de vanguardia en muchas tareas de PNL multilingües.

Ardilla de tierra

El modelo de lenguaje Gopher de DeepMind es significativamente más preciso que los modelos de lenguaje grandes existentes en tareas como responder preguntas sobre temas especializados como ciencias y humanidades e igual a ellos en otras tareas como razonamiento lógico y matemáticas. Gopher tiene 280B de parámetros que puede ajustar, lo que lo hace más grande que el GPT-3 de OpenAI, que tiene 175 mil millones.

Chinchilla

Sin embargo, Chinchilla usa el mismo presupuesto informático que Gopher, con solo 70 mil millones de parámetros y cuatro veces más datos. Supera a modelos como Gopher, GPT-3, Jurassic-1 y Megatron-Turing NLG en muchas tareas de evaluación posteriores. Utiliza significativamente menos computación para el ajuste fino y la inferencia, lo que facilita en gran medida el uso posterior.

🔥 Recomendado:  Anuncios de Amazon vs. Walmart: lo que necesita saber y las principales diferencias con Amazon PPC

Gorrión

Sparrow es un chatbot desarrollado por DeepMind que ha sido diseñado para responder correctamente las preguntas de los usuarios y reducir el riesgo de respuestas inseguras e inapropiadas. La motivación detrás de Sparrow es abordar el problema de los modelos de lenguaje que producen resultados incorrectos, sesgados o potencialmente dañinos. Sparrow está entrenado usando juicios humanos para que sea más útil, correcto e inofensivo que los modelos de lenguaje previamente entrenados de referencia.

claudio

Claude es un asistente conversacional basado en inteligencia artificial impulsado por procesamiento avanzado de lenguaje natural. Su objetivo es ser útil, inofensivo y honesto. Ha sido entrenado usando una técnica llamada Constitucional Al. Fue obligado y recompensado a exhibir los comportamientos mencionados anteriormente durante su entrenamiento utilizando autosupervisión modelo y otros métodos de seguridad de IA.

Ernie 3.0 Titán

Ernie 3.0 fue lanzado por Baidu y Peng Cheng Laboratory. Tiene parámetros 260B y sobresale en la comprensión y generación de lenguaje natural. Se entrenó en datos masivos no estructurados y logró resultados de última generación en más de 60 tareas de PNL, incluida la comprensión de lectura automática, la categorización de texto y la similitud semántica. Además, Titan se desempeña bien en 30 puntos de referencia de pocos disparos y cero disparos, lo que demuestra su capacidad para generalizar en varias tareas posteriores con una pequeña cantidad de datos etiquetados.

erniebot

Baidu, una empresa de tecnología china, anunció que completaría las pruebas internas de su proyecto “Ernie Bot” en marzo. Ernie Bot es un modelo de lenguaje impulsado por IA similar a ChatGPT de OpenAI, capaz de comprender el lenguaje, generar lenguaje y generar texto a imagen. La tecnología es parte de una carrera global para desarrollar inteligencia artificial generativa.

PanGu-Alfa

Huawei ha desarrollado un equivalente en chino del GPT-3 de OpenAI llamado PanGu-Alpha. Este modelo se basa en 1,1 TB de fuentes en chino, incluidos libros, noticias, redes sociales y páginas web, y contiene más de 200 000 millones de parámetros, 25 millones más que GPT-3. PanGu-Alpha es muy eficiente para completar varias tareas de lenguaje, como resúmenes de texto, respuesta a preguntas y generación de diálogos.

OPT-IML

OPT-IML es un modelo de lenguaje preentrenado basado en el modelo OPT de Meta y tiene 175 mil millones de parámetros. OPT-IML está ajustado para un mejor rendimiento en tareas de lenguaje natural, como respuesta a preguntas, resumen de texto y traducción, utilizando alrededor de 2000 tareas de lenguaje natural. Es más eficiente en el entrenamiento, con una menor huella de CO₂ que el GPT-3 de OpenAI.

🔥 Recomendado:  El equipo de inteligencia artificial de Microsoft presenta NaturalSpeech 2: un sistema TTS de vanguardia con modelos de difusión latente para una potente síntesis de voz Zero-Shot y prosodias expresivas mejoradas

BlenderBot-3

BlenderBot 3 es un agente conversacional que puede interactuar con personas y recibir comentarios sobre sus respuestas para mejorar sus habilidades conversacionales. BlenderBot 3 se basa en el modelo de lenguaje OPT-175B disponible públicamente de Meta AI, que es aproximadamente 58 veces más grande que su predecesor, BlenderBot 2. El modelo incorpora habilidades conversacionales como personalidad, empatía y conocimiento y puede llevar a cabo conversaciones significativas utilizando largas memoria de términos y búsqueda en internet.

Jurásico-1

Jurassic-1 es una plataforma de desarrollo lanzada por AI21 Labs que proporciona modelos de lenguaje de última generación para crear aplicaciones y servicios. Ofrece dos modelos, incluida la versión Jumbo, que es el modelo de lenguaje más grande y sofisticado jamás lanzado para uso general. Los modelos son muy versátiles, capaces de generar texto similar al humano y resolver tareas complejas como responder preguntas y clasificar texto.

exaona

Exaone es una tecnología de inteligencia artificial que aprende rápidamente información de documentos y patentes y forma una base de datos. Es un avance innovador para abordar enfermedades a través del aprendizaje rápido de texto, fórmulas e imágenes en documentos y fórmulas químicas. La invención permite una acumulación más fácil del conocimiento humano en forma de datos, lo que facilita el desarrollo de nuevos fármacos.

Megatron-Turing NLG

El modelo Megatron-Turing Natural Language Generation (MT-NLG) es un modelo de lenguaje basado en transformadores con 530 mil millones de parámetros, lo que lo convierte en el más grande y poderoso de su tipo. Supera a los modelos de última generación anteriores en configuraciones de cero, uno y pocos disparos y demuestra una precisión sin igual en tareas de lenguaje natural como predicción de finalización, razonamiento de sentido común, comprensión de lectura, inferencias de lenguaje natural y desambiguación del sentido de las palabras. .