Estás leyendo la publicación: GPT-4 supera a GPT-3.5 en general en una variedad de puntos de referencia de estudio
El GPT-4 ha logrado puntajes más altos que el GPT-3.5 en una variedad de puntos de referencia. Este es un gran avance para las máquinas, ya que demuestra que ahora no solo pueden resolver problemas para los que fueron diseñadas originalmente, sino que también pueden hacerlo mejor que los estudiantes universitarios.
Hay algunas cosas a tener en cuenta al mirar este resultado. En primer lugar, el GPT-4 no recibió ningún entrenamiento específico para estos exámenes. Procedió utilizando las pruebas más recientes disponibles públicamente (en el caso de las preguntas de respuesta libre de las Olimpiadas y AP) o comprando las ediciones 2022-2023 de los exámenes de práctica. En segundo lugar, es importante tener en cuenta que el rendimiento del GPT-4 puede no reflejar necesariamente las habilidades de los examinados humanos, ya que funciona con un conjunto diferente de principios y algoritmos.
Este es un gran logro como muestra que las máquinas no solo son capaces de una inteligencia similar a la humana, sino que también pueden superarnos. Esto allana el camino para un futuro en el que las máquinas puedan asumir tareas cada vez más complejas, lo que finalmente conducirá a un futuro en el que puedan ayudarnos en nuestra vida cotidiana.
GPT-4, por ejemplo, aprueba un examen de barra simulado con una puntuación en el 10% superior de los examinados; La puntuación de GPT-3.5 estuvo en el 10% inferior. Esta mejora significativa en el rendimiento de GPT-4 se debe a sus datos de entrenamiento más grandes y su arquitectura mejorada. Se espera que tenga una amplia gama de aplicaciones en varios campos, incluido el procesamiento del lenguaje natural y la escritura automatizada.
GPT-4 supera significativamente a la mayoría de los modelos de última generación (SOTA), incluidos aquellos que pueden usar protocolos de capacitación adicionales o un diseño específico de referencia, así como los modelos de lenguaje grande existentes.
Internamente, los desarrolladores han estado utilizando GPT-4, que ha tenido un impacto significativo en actividades como programación, ventas, soporte y moderación de contenido. La segunda etapa de nuestro método de alineación ya está en marcha, ya que los desarrolladores la utilizan para ayudar a los humanos a revisar los resultados de la IA.
El conjunto de datos MMLU (Massive Multi-Task Language Understanding) contiene preguntas de una amplia gama de temas sobre la comprensión del lenguaje en diferentes tareas (que abarcan 57 dominios, incluidas las matemáticas, la biología, el derecho, las ciencias sociales y humanas, etc.). Hay cuatro posibles respuestas a la pregunta, una de las cuales es correcta. Es decir, adivinar al azar muestra un resultado de 25% de respuestas correctas. Vea la imagen a continuación para ver ejemplos de preguntas y sus dificultades. El marcador de persona promedio (es decir, este no es un científico, no es un profesor, una persona común que se pluriemplea como margen de beneficio) responde correctamente al 35% de las preguntas; sin embargo, los expertos pueden alcanzar una puntuación de +/- 90%.
Originalmente, todo el conjunto de datos estaba en inglés. Pero, ¿y si las preguntas y respuestas se traducen a otros idiomas, especialmente a los menos comunes? ¿Funcionará el modelo para ellos de alguna manera? En esta prueba, se utilizó el servicio de traducción de Microsoft Azure para la traducción. Las traducciones no son perfectas; en algunos casos, se pierde información importante. Sin embargo, incluso en este caso, el GPT-4 funciona bien en otros idiomas. En las versiones traducidas de la MMLU, GPT-4 supera el nivel de inglés de otros modelos grandes (incluido el de Google) en 24 de los 26 idiomas examinados.
Además, GPT-4 funciona mejor en idiomas raros que ChatGPT en inglés (ChatGPT logró una puntuación del 70,1 %, mientras que la puntuación del nuevo modelo para tailandés fue del 71,8 %). La puntuación de la prueba en inglés fue la más alta, con GPT-4 funcionando un 10 % mejor que otros modelos, incluido el PaLM más grande de Google. Logró una puntuación del 86,4%, mientras que un grupo de expertos—90%.
- Para el verano de 2023, la IA podría haber alcanzado un nuevo nivel de poder gracias a ChatGPT, un chatbot que usa el algoritmo GPT-4 y supera a GPT-3 por un factor de 570. Una variedad de elementos contribuyen al éxito de ChatGPT, incluido su diseño para ser más “humano” y su uso de minería de datos de vanguardia y procesamiento de lenguaje natural para aumentar su efectividad y precisión.
- Microsoft y OpenAI anunciaron la renovación de su colaboración y los planes para que Bing Search adopte capacidades de búsqueda mejoradas por IA en enero. El reemplazo del modelo GPT3.5 muy sofisticado, GPT4, se acaba de lanzar y tiene el potencial de mejorar en gran medida la capacidad de búsqueda de Bing para comprender consultas en lenguaje natural y ofrecer resultados más precisos. Es una buena idea tener un buen plan de respaldo en caso de que algo salga mal.
Leer más noticias relacionadas: