MiniGPT-4: el nuevo modelo de IA para descripciones de imágenes complejas

Estás leyendo la publicación: MiniGPT-4: el nuevo modelo de IA para descripciones de imágenes complejas

Comprender cómo interpretar y describir el contenido visual es esencial para una amplia gama de aplicaciones, desde el comercio electrónico hasta las redes sociales. Ingresar MiniGPT-4el último modelo de IA que combina el poder del procesamiento visual con la comprensión del lenguaje de vanguardia.

MiniGPT-4 emplea un codificador visual congelado y un modelo de lenguaje grande, conectados a través de una sola capa de proyección, para generar descripciones precisas de imágenes, escribir historias y poemas basados ​​en imágenes, brindar soluciones a problemas representados en imágenes e incluso enseñar a los usuarios a cocinar. basado en fotos de comida.

MiniGPT-4: el nuevo modelo de IA para descripciones de imágenes complejasa través de MiniGPT-4

El modelo es altamente eficiente y solo requiere la alineación de 5 millones de pares de imagen y texto para entrenar la capa lineal que alinea las características visuales con el modelo de lenguaje grande congelado, Vicuña.

Vicuna se basa en LLaMA y puede realizar tareas lingüísticas complejas. GPT-4, el último modelo de lenguaje grande de OpenAI, impulsa MiniGPT-4. La naturaleza multimodal de GPT-4 lo distingue de sus predecesores, lo que lo hace adecuado para diversas aplicaciones, incluidos videojuegos, extensiones de Chrome y preguntas de razonamiento complejo.

MiniGPT-4 ha demostrado capacidades similares a GPT-4, como generar descripciones detalladas de imágenes y crear sitios web a partir de borradores escritos a mano. Para mejorar la salida de lenguaje del modelo, se seleccionó un mejor conjunto de datos para un mayor ajuste mediante una plantilla conversacional. Esto dio como resultado una mejor generación de lenguaje con mayor confiabilidad y facilidad de uso general.

Las capacidades excepcionales del modelo provienen de su proceso de formación en dos etapas, que permite a MiniGPT generar descripciones precisas y en lenguaje natural de las imágenes. Durante la primera etapa, MiniGPT-4 se entrena en millones de pares de imagen y texto, como se mencionó anteriormente, lo que le permite aprender sobre objetos, personas y lugares y describirlos con palabras. Este entrenamiento previo dura aproximadamente 10 horas y requiere cuatro GPU A100 (80 GB). La salida de esta etapa es generada por el transformador de visión basado en la imagen de entrada.

🔥 Recomendado:  Herramientas de monetización de Pinterest: Pines de ideas comprables para creadores e influencers

Sin embargo, la primera etapa de la capacitación previa puede producir resultados que carecen de coherencia, como frases repetitivas, oraciones fragmentadas o contenido irrelevante. Para abordar este problema, MiniGPT-4 se somete a una segunda etapa de entrenamiento, en la que se utiliza un conjunto de datos más pequeño pero de alta calidad de pares de imagen y texto para ajustar las descripciones de texto del modelo para que sean más precisas y naturales.

Desde generar diseños de sitios web hasta brindar soluciones a problemas representados en imágenes, MiniGPT-4 es un impresionante paso adelante en el mundo de la IA, y es solo el comienzo.

Leer más: