Evaluación de la precisión histórica de ImageNet

Estás leyendo la publicación: Evaluación de la precisión histórica de ImageNet

Un nuevo estudio de Google Research y UC Berkeley se suma a las críticas de larga data con respecto a la dependencia del sector de investigación de visión por computadora (CV) en el venerable ImageNet conjunto de datos y sus muchos derivados. Después de una gran cantidad de evaluación manual intensiva en mano de obra, los autores concluyen que casi el 50 % de los supuestos errores que cometen los mejores modelos en la evaluación de subconjuntos de múltiples etiquetas de ImageNet (donde los modelos actuales de mayor rendimiento logran más del 97 % de los mejores 1 precisión) no están realmente en error.

Del papel:

“Nuestro análisis revela que casi la mitad de los supuestos errores no lo son en absoluto, y descubrimos nuevas etiquetas múltiples válidas, lo que demuestra que, sin una revisión cuidadosa, estamos subestimando significativamente el rendimiento de estos modelos.

“Por otro lado, también encontramos que los mejores modelos de hoy todavía cometen una cantidad significativa de errores (40%) que obviamente son incorrectos para los revisores humanos”.

La medida en que el etiquetado incorrecto de los conjuntos de datos, en particular por parte de trabajadores de crowdsourcing no calificados, puede estar sesgando el sector, fue revelado por el enfoque minucioso del estudio para la evaluación de los pares de imagen/texto en una gran parte de la historia de ImageNet.

En la fila superior, ejemplos de Mistake Severity: en los primeros dos ejemplos aquí, el nuevo modelo simplemente se equivoca en la etiqueta predicha;  en el tercer ejemplo, el nuevo modelo identifica una etiqueta múltiple que faltaba anteriormente (una etiqueta que aborda una nueva categorización de la imagen);  en la imagen final de la fila superior, la predicción del modelo es ambigua, porque la imagen es una abeja-mosca y no una mosca.  Sin embargo, la abeja promedio pertenece al orden de insectos Diptera, por lo que esta excepción sería casi imposible de detectar, incluso para un anotador experto.  En la fila de abajo hay cuatro categorías de errores, con ejemplos.  Fuente: https://arxiv.org/pdf/2205.04596.pdf

En la fila superior, ejemplos de Mistake Severity: en los primeros dos ejemplos aquí, el nuevo modelo simplemente se equivoca en la etiqueta predicha; en el tercer ejemplo, el nuevo modelo identifica una etiqueta múltiple que faltaba anteriormente (una etiqueta que aborda una nueva categorización de la imagen); en la imagen final de la fila superior, la predicción del modelo es ambigua, porque la imagen es una abeja-mosca y no una mosca. Sin embargo, la abeja promedio pertenece al orden de insectos Diptera, por lo que esta excepción sería casi imposible de detectar, incluso para un anotador experto. En la fila de abajo hay cuatro categorías de errores, con ejemplos. Fuente: https://arxiv.org/pdf/2205.04596.pdf

Los investigadores emplearon una pequeña cantidad de evaluadores dedicados para revisar minuciosamente los registros de errores históricos en la evaluación de conjuntos de datos de ImageNet, y descubrieron que muchos de los juicios de error son erróneos, un descubrimiento que potencialmente revisa parte de la mala puntuación que muchos proyectos han obtenido en Puntos de referencia de ImageNet a lo largo de los años.

🔥 Recomendado:  Cómo encontrar las mejores palabras clave orgánicas para productos de nicho en Amazon

A medida que ImageNet se afianza en la cultura CV, los investigadores sostienen que se cree que las mejoras en la precisión producen rendimientos decrecientes, y que los nuevos modelos que superan la precisión de las etiquetas establecidas y que sugieren etiquetas nuevas (es decir, adicionales) pueden estar siendo castigados, esencialmente, por no -conformidad.

‘Por ejemplo,’ observan los autores. ‘¿Deberíamos penalizar a los modelos por ser los primeros en predecir que un bagel precocido puede ser un bagel, como lo hace uno de los modelos que revisamos en este trabajo?’

Del artículo, un modelo más nuevo desafía la predicción previa de que el objeto en la foto es masa y sugiere que el objeto ya es un bagel).

Del artículo, un modelo más nuevo desafía la predicción previa de que el objeto en la foto es masa y sugiere que el objeto ya es un bagel).

Desde el punto de vista de un trabajador colaborativo encargado de identificar dicho objeto, este es un dilema semántico e incluso filosófico que solo puede resolverse mediante el etiquetado múltiple (como ocurre a menudo en subconjuntos posteriores e iteraciones posteriores de ImageNet); en el caso anterior, el objeto es tanto la masa como al menos un panecillo naciente.

Errores mayores (arriba) y menores (abajo) que surgieron al probar modelos personalizados en la investigación.  Las etiquetas originales de ImageNet son las primeras imágenes a la izquierda.

Errores mayores (arriba) y menores (abajo) que surgieron al probar modelos personalizados en la investigación. Las etiquetas originales de ImageNet son las primeras imágenes a la izquierda.

Las dos soluciones obvias son asignar más recursos al etiquetado (lo cual es un desafío, dentro de las limitaciones presupuestarias de la mayoría de los proyectos de investigación de visión artificial); y, como enfatizan los autores, actualizar periódicamente los conjuntos de datos y etiquetar los subconjuntos de evaluación (lo que, entre otros obstáculos, corre el riesgo de romper la continuidad histórica “igual” de los puntos de referencia, y ensuciar nuevos trabajos de investigación con calificaciones y descargos de responsabilidad con respecto a la equivalencia) .

Como un paso para remediar la situación, los investigadores han desarrollado un nuevo subconjunto de datos de ImageNet llamado ImageNet-Major (ImageNet-M), que describen como ‘un segmento de “errores importantes” de 68 ejemplos de los errores obvios cometidos por los mejores modelos de hoy, un segmento en el que los modelos deberían alcanzar casi la perfección, pero hoy están lejos de hacerlo.’

El papel se titula ¿Cuándo la masa se convierte en un bagel? Analizando los errores restantes en ImageNety está escrito por cuatro autores de Google Research, junto con Sara Fridovich-Keil de UC Berkeley.

Deuda técnica

Los hallazgos son importantes porque los errores restantes identificados (o mal identificados) en ImageNet, en los 16 años desde su inicio, el estudio central de la investigación, pueden representar la diferencia entre un modelo implementable y uno que es lo suficientemente propenso a errores como para poder hacerlo. No se suelte en datos en vivo. Como siempre, el la última milla es crítica.

🔥 Recomendado:  Marketing moral: averiguar cuándo una marca debe tomar una postura sobre un tema controvertido

El sector de investigación de visión por computadora y síntesis de imágenes ha “seleccionado automáticamente” ImageNet como una métrica de referencia, por varias razones, entre otras, porque una oleada de primeros usuarios, en un momento en que los conjuntos de datos de alto volumen y bien etiquetados eran más raros. de lo que son ahora, produjeron tantas iniciativas de investigación que las pruebas con ImageNet se convirtieron rápidamente en el único “estándar” histórico ampliamente aplicable para la evaluación comparativa de nuevos marcos.

Método

Buscando los ‘errores restantes’ en ImageNet, los investigadores utilizaron un estándar vit modelo (capaz de lograr una precisión del 89,5%) con 3 mil millones de parámetros, Vit-3Bpreentrenado en JFT-3B y afinado en ImageNet-1K.

Utilizando el ImageNet2012_multilabel conjunto de datos, los investigadores registraron la precisión inicial de múltiples etiquetas (MLA) de ViT-3B como 96.3%, durante el cual el modelo cometió 676 errores aparentes. Fueron estos errores (y también los errores producidos por un modelo de sopas codiciosas) los que los autores intentaron investigar.

Para evaluar los 676 errores restantes, los autores evitaron los crowdworkers, observando que los errores de este tipo pueden ser difícil para que los anotadores promedio lo detecten, pero reunió un panel de cinco revisores expertos y creó una herramienta dedicada para permitir que cada revisor vea de un vistazo la clase prevista; la puntuación prevista; las etiquetas de verdad de tierra; y la imagen misma.

La interfaz de usuario creada para el proyecto.

La interfaz de usuario creada para el proyecto.

En algunos casos, fue necesaria una mayor investigación para resolver las disputas entre el panel, y se utilizó la búsqueda de imágenes de Google como herramienta complementaria.

‘[In] un caso interesante pero no aislado, una predicción de un taxi (sin indicadores obvios de taxi más allá del color amarillo) estaba presente en la imagen; determinamos que la predicción era correctamente un taxi y no solo un vehículo estándar al identificar un puente emblemático en el fondo para localizar la ciudad, y una búsqueda posterior de imágenes de taxis en esa ciudad arrojó las imágenes del mismo modelo de taxi y diseño de matrículas, validando la predicción realmente correcta del modelo.’

Después de una revisión inicial de los errores encontrados en varias fases de la investigación, los autores formularon cuatro tipos de errores novedosos: error de grano finodonde la clase predicha es similar a una etiqueta de verdad básica; de grano fino con fuera de vocabulario (OOV)donde el modelo identifica un objeto cuya clase es correcta pero no está presente en ImageNet; correlación espuria, donde la etiqueta predicha se lee fuera del contexto de la imagen; y no prototípicodonde el objeto de verdad fundamental es un ejemplo engañoso de la clase que se parece a la etiqueta predicha.

🔥 Recomendado:  Inicio de sesión de Shopify para cuentas de administrador, socio y cliente: guía completa

En ciertos casos, la verdad básica no era en sí misma “verdadera”:

‘Después de la revisión de los 676 errores originales [found in ImageNet]encontramos que 298 eran correctos o poco claros, o determinamos que la verdad fundamental original era incorrecta o problemática.’

Después de una ronda exhaustiva y compleja de experimentos en una variedad de conjuntos de datos, subconjuntos y conjuntos de validación, los autores encontraron que los dos modelos bajo estudio en realidad se consideraron correctos (por los revisores humanos) para la mitad de los “errores” que cometieron con las técnicas convencionales. .

El documento concluye:

‘En este documento, analizamos todos los errores restantes que cometen los modelos ViT-3B y Greedy Soups en el conjunto de validación de múltiples etiquetas de ImageNet.

‘En general, descubrimos que: 1) cuando un modelo grande y de alta precisión hace una predicción novedosa que otros modelos no hacen, termina siendo una nueva etiqueta múltiple correcta casi la mitad de las veces; 2) los modelos de mayor precisión no demuestran un patrón obvio en nuestras categorías y la gravedad de los errores que resuelven; 3) Los modelos SOTA de hoy en día igualan o superan en gran medida el rendimiento del mejor ser humano experto en el subconjunto de etiquetas múltiples evaluado por humanos; 4) los datos de entrenamiento ruidosos y las clases infraespecificadas pueden ser un factor que limite la medición eficaz de las mejoras en la clasificación de imágenes.’

Publicado por primera vez el 15 de mayo de 2022.