▷ OpenAI GPT-4 arrives in mid-March 2023

Estás leyendo la publicación: OpenAI GPT-4 llega a mediados de marzo de 2023

El CTO de Microsoft Alemania, Andreas Braun, confirmó que GPT-4 llegará dentro de una semana del 9 de marzo de 2023 y que será multimodal. La IA multimodal significa que podrá operar con múltiples tipos de entrada, como video, imágenes y sonido.

Actualizado: GPT-4 lanzado el 14 de marzo de 2023

OpenAI lanzó GPT-4 el 14 de marzo de 2023. Es un modelo multimodal que acepta indicaciones de imagen y texto.

Modal es una frase utilizada en el aprendizaje automático para denotar formas de entrada como texto, pero también sentidos como sonido, visual, olfato, etc.

El anuncio de OpenAI describió la escala de los avances de GPT-4:

“… si bien es menos capaz que los humanos en muchos escenarios del mundo real, exhibe un desempeño a nivel humano en varios puntos de referencia académicos y profesionales.

Por ejemplo, aprueba un examen de barra simulado con una puntuación de alrededor del 10 % superior de los examinados; por el contrario, la puntuación de GPT-3.5 se situó en torno al 10 % inferior.

Pasamos 6 meses alineando iterativamente GPT-4 usando lecciones de nuestro programa de pruebas contradictorias, así como también de ChatGPT, lo que resultó en nuestros mejores resultados (aunque lejos de ser perfectos) en factualidad, capacidad de dirección y rehusarse a salirse de las barandillas”.

Modelos multimodales de lenguaje grande

La gran conclusión del anuncio es que GPT-4 es multimodal (SEJ predijo que GPT-4 es multimodal en enero de 2023).

La modalidad es una referencia al tipo de entrada que (en este caso) trata un modelo de lenguaje grande.

Multimodal puede abarcar texto, voz, imágenes y video.

GPT-3 y GPT-3.5 solo operaron en una modalidad, texto.

Según el informe de noticias alemán, GPT-4 puede operar en al menos cuatro modalidades, imágenes, sonido (auditivo), texto y video.

Se cita al Dr. Andreas Braun, CTO de Microsoft Alemania:

“Presentaremos GPT-4 la próxima semana, allí tendremos modelos multimodales que ofrecerán posibilidades completamente diferentes, por ejemplo, videos…”

El informe carecía de detalles para GPT-4, por lo que no está claro si lo que se compartió sobre la multimodalidad era específico de GPT-4 o solo en general.

Director de estrategia empresarial de Microsoft holger kenn explicó las multimodalidades, pero el informe no estaba claro si se refería a la multimodalidad GPT-4 o a la multimodalidad en general.

Creo que sus referencias a la multimodalidad eran específicas de GPT-4.

El informe de noticias compartió:

“Kenn explicó de qué se trata la IA multimodal, que puede traducir texto no solo en imágenes, sino también en música y video”.

Otro hecho interesante es que Microsoft está trabajando en “” para fundamentar su IA con hechos para que sea más confiable.

microsoft kosmos-1

Algo que aparentemente no se informó en los Estados Unidos es que Microsoft lanzó un modelo de lenguaje multimodal llamado Kosmos-1 a principios de marzo de 2023.

Según el informe del sitio de noticias alemán, Heise.dmi:

“…el equipo sometió el modelo previamente entrenado a varias pruebas, con buenos resultados en la clasificación de imágenes, respuesta a preguntas sobre el contenido de la imagen, etiquetado automatizado de imágenes, reconocimiento óptico de texto y tareas de generación de voz.

…El razonamiento visual, es decir, sacar conclusiones sobre las imágenes sin utilizar el lenguaje como paso intermedio, parece ser clave aquí…»

Kosmos-1 es un modal multimodal que integra las modalidades de texto e imágenes.

GPT-4 va más allá que Kosmos-1 porque añade una tercera modalidad, el vídeo, y también parece incluir la modalidad del sonido.

Funciona en varios idiomas

GPT-4 parece funcionar en todos los idiomas. Se describe como poder recibir una pregunta en alemán y una respuesta en italiano.

Ese es un ejemplo extraño porque, ¿quién haría una pregunta en alemán y querría recibir una respuesta en italiano?

Esto fue lo que se confirmó:

“…la tecnología ha llegado tan lejos que básicamente “funciona en todos los idiomas”: puedes hacer una pregunta en alemán y obtener una respuesta en italiano.

Con la multimodalidad, Microsoft (-OpenAI) ‘hará que los modelos sean integrales’”.

Creo que el objetivo del avance es que el modelo trasciende el lenguaje con su capacidad de extraer conocimiento a través de diferentes idiomas. Entonces, si la respuesta está en italiano, la sabrá y podrá proporcionar la respuesta en el idioma en el que se hizo la pregunta.

Eso lo haría similar al objetivo de la IA multimodal de Google llamada MUM. Se dice que mamá puede proporcionar respuestas en inglés para las cuales los datos solo existen en otro idioma, como el japonés.

Aplicaciones GPT-4

No hay ningún anuncio actual de dónde aparecerá GPT-4. Pero se mencionó específicamente Azure-OpenAI.

Google está luchando por alcanzar a Microsoft mediante la integración de una tecnología competidora en su propio motor de búsqueda. Este desarrollo exacerba aún más la percepción de que Google se está quedando atrás y carece de liderazgo en la IA orientada al consumidor.

Google ya integra IA en múltiples productos como Google Lens, Google Maps y otras áreas en las que los consumidores interactúan con Google. Este enfoque consiste en utilizar la IA como una tecnología de asistencia para ayudar a las personas en pequeñas tareas.

La forma en que Microsoft lo está implementando es más visible y, en consecuencia, está captando toda la atención y reforzando la imagen de Google como agitado y luchando por ponerse al día.

Leer el Oficial Anuncio de lanzamiento de OpenAI GPT-4 aquí.

Lea el informe alemán original aquí:

GPT-4 llegará la próxima semana, y será multimodal, dice Microsoft Alemania

Tabla de Contenido

OpenAI GPT-4 arrives in mid-March 2023

Actualizado: GPT-4 lanzado el 14 de marzo de 2023

Modelos multimodales de lenguaje grande

microsoft kosmos-1

Funciona en varios idiomas

Aplicaciones GPT-4

Otros temas interesantes: