▷ OpenAI anuncia Evals, un marco de software de código abierto para evaluar modelos de IA

Estás leyendo la publicación: OpenAI anuncia Evals, un marco de software de código abierto para evaluar modelos de IA

Junto con el anuncio de GPT-4, OpenAI ha anunciado el marco de software de código abierto OpenAI Evals. Esta herramienta está diseñada para crear y ejecutar puntos de referencia que evalúan el rendimiento de modelos como GPT-4. Con Evals, OpenAI espera obtener puntos de referencia de colaboración colectiva para las pruebas de modelos de IA.

“Usamos Evals para guiar el desarrollo de nuestros modelos (tanto identificando deficiencias como evitando regresiones), y nuestros usuarios pueden aplicarlo para realizar un seguimiento del rendimiento en las versiones del modelo (que ahora saldrán regularmente) y la evolución de las integraciones de productos”, explica la empresa en a entrada en el blog.

Stripe, una popular empresa de procesamiento de pagos, ya utilizó Evals para complementar sus evaluaciones humanas y medir la precisión de su herramienta de documentación impulsada por GPT.

Los desarrolladores pueden usar Evals para crear y ejecutar evaluaciones que:

Use conjuntos de datos para generar avisos,
Medir la calidad de las terminaciones proporcionadas por un modelo OpenAI, y
Compare el rendimiento en diferentes conjuntos de datos y modelos.

Con el código fuente abierto, los desarrolladores también pueden escribir y agregar un evaluación personalizada así como varias plantillas que pueden adaptarse a diferentes puntos de referencia. La compañía ha incluido plantillas que han sido muy útiles internamente, incluida una plantilla para “evaluaciones calificadas por modelos”, que GPT-4 puede usar para verificar su propio trabajo. Como ejemplo a seguir, la empresa ha creado una evaluación de acertijos lógicos que contiene diez indicaciones en las que GPT-4 falla.

Evals también es compatible con la implementación de puntos de referencia existentes, incluidos varios cuadernos que implementan puntos de referencia académicos y algunas variaciones de la integración de pequeños subconjuntos de CoQA.

Si bien no se pagará a los desarrolladores por contribuir con evaluaciones, OpenAI otorgará acceso a GPT-4 por un tiempo limitado a aquellos que contribuyan con “evaluaciones de alta calidad”.

El anuncio de Evals llega después de OpenAI dijo recientemente dejaría de usar los datos enviados por los clientes a través de su API para entrenar o mejorar sus modelos a menos que los clientes decidan participar. La compañía se une a Meta en los puntos de referencia de crowdsourcing, ya que este último encarga a los humanos que “encuentren ejemplos contradictorios que engañen el estado actual de la tecnología”. -art models” por su Banco Dyna plataforma.

Leer más:

OpenAI anuncia Evals, un marco de software de código abierto para evaluar modelos de IA

Otros temas interesantes: