Estás leyendo la publicación: La compresión JPEG aumenta la tasa de errores de reconocimiento facial para rostros no caucásicos, según un estudio
Un nuevo estudio del Reino Unido ha concluido que las técnicas de compresión con pérdida en imágenes JPEG pueden tener una influencia negativa en la eficacia de los sistemas de reconocimiento facial, lo que aumenta la probabilidad de que dichos sistemas identifiquen incorrectamente a una persona no caucásica.
El documento dice:
“A través de una amplia configuración experimental, demostramos que los enfoques comunes de compresión de imágenes con pérdida tienen un impacto negativo más pronunciado en el rendimiento del reconocimiento facial para categorías específicas de fenotipos raciales, como tonos de piel más oscuros (hasta en un 34,55%).”
Los resultados también indican que submuestreo de cromaque reduce la información de color (en lugar de la información de brillo) en las secciones de una imagen facial, aumenta la tasa de coincidencia falsa (FMR) en una variedad de conjuntos de datos probados, muchos de los cuales son repositorios estándar para la visión por computadora.
El submuestreo de croma se aplica como una medida económica adicional en la compresión JPEG porque las personas son menos capaces de percibir las reducciones en la complejidad y el rango de las bandas de color que los sistemas de visión por computadora, que toman estas “agregaciones” mucho más literalmente que nosotros.
Los investigadores del nuevo estudio descubrieron que eliminar el submuestreo de croma del proceso de compresión reduce este efecto negativo hasta en un 15,95 %, aunque no elimina el problema por completo.
El estudio también afirma que el entrenamiento en datos sin comprimir (o menos comprimidos) no resolver el problema si las imágenes en tiempo de inferencia están comprimidas. Efectivamente, esto significa que entrenar un modelo de reconocimiento facial en imágenes menos comprimidas no resolverá el sesgo si el modelo de producción final se alimenta con imágenes que tienen los problemas de compresión indicados.
Los autores informan*:
‘[The] El uso de la compresión de imágenes con pérdida durante la inferencia afecta negativamente al rendimiento de los sistemas contemporáneos. enfoques de reconocimiento facial en un subconjunto de agrupaciones de fenotipos faciales relacionados con la raza (es decir, tonos de piel más oscuros, forma de ojo de un solo párpado) y que su efecto está presente independientemente de si se utilizan imágenes comprimidas para el entrenamiento del modelo.’
El documento subraya las consecuencias de la compresión de imágenes en el sector de investigación de visión por computadora, que se explicaron con cierto detalle en un estudio de 2021 de la Universidad de Maryland y Facebook AI.
Es un problema dificil de remediar; incluso si los problemas de almacenamiento y ancho de banda que hacen necesaria la compresión se eliminaran de la noche a la mañana, e incluso si todas las imágenes de baja calidad que pueblan veinte o más años de conjuntos de datos en el sector se volvieran a comprimir repentinamente a un mejor ritmo desde fuentes de alta calidad, sería representan un ‘reinicio’ de la continuidad de las herramientas académicas de evaluación comparativa durante las últimas décadas. La comunidad CV tiene, en efecto, Acostumbrarse al problema, hasta el punto de que representa una notable deuda técnica.
Racial inclinación en reconocimiento facial (FR) ha convertirse a tema candente de los medios en los últimos años, lo que provocó un esfuerzo concertado en la comunidad de investigación para eliminarlo de los sistemas afectados. Sin embargo, la dependencia del organismo mundial de investigación de un número excesivamente limitado de conjuntos de datos de “estándar de oro”, muchos de los cuales son no racialmente equilibrado o mal etiquetado en este sentido, exacerba el desafío.
Los investigadores del nuevo artículo también notaron una disonancia entre los estándares de adquisición de imágenes y los estándares establecidos por la ejecución general de los puntos de referencia de reconocimiento facial, afirmando*:
‘[Existing] estándares de adquisición de imágenes para sistemas de reconocimiento facial como ISO/CEI 19794-5 y OACI 9303 proponer estándares de calidad tanto basados en la imagen (es decir, iluminación, oclusión) como basados en el sujeto (es decir, pose, expresión, accesorios) para garantizar la calidad de la imagen facial.
‘En consecuencia, las imágenes faciales también deben almacenarse utilizando estándares de compresión de imágenes con pérdida, como jpeg o JPEG2000; e identificable por género, color de ojos, color de cabello, expresión, propiedades (es decir, anteojos), ángulos de pose (guiñada, cabeceo y balanceo) y posiciones de puntos de referencia.
‘Sin embargo, los puntos de referencia comunes de reconocimiento facial no se ajustan a los estándares ISO/IEC 19794-5 e ICAO 9303. Además, las muestras en la naturaleza a menudo se obtienen bajo condiciones ambientales y de cámara variables para desafiar las soluciones propuestas.
“Sin embargo, la mayoría de las muestras de imágenes faciales dentro de dichos conjuntos de datos se comprimen mediante compresión JPEG con pérdida”.
Los autores del nuevo trabajo afirman que sus esfuerzos futuros examinarán el impacto de la cuantificación de imágenes con pérdida en diversos marcos de reconocimiento facial y ofrecerán posibles métodos para mejorar la imparcialidad de estos sistemas.
El nuevo papel se titula ¿La compresión de imágenes con pérdida afecta el sesgo racial en el reconocimiento facial?y proviene de tres investigadores del Imperial College London, junto con uno del análisis facial profundo InsightFace biblioteca.
Datos y método
Para sus experimentos, los investigadores utilizaron el imagenmagia y libjpeg bibliotecas de código abierto para crear versiones de las imágenes de datos de origen en varios incrementos de compresión.
Para obtener una descripción general inicial de los efectos de la compresión, los autores estudiaron los efectos de la relación señal-ruido máxima (PSNR) en cuatro niveles diferentes de compresión JPEG en Racial Faces in-the-Wild (RFW) conjunto de datos.
Entre otras pruebas, realizaron investigaciones sobre un conjunto de datos racialmente desequilibrado y otro racialmente equilibrado. Para el conjunto racialmente equilibrado, utilizaron la pérdida de margen angular aditivo (Cara de arco) funcionan con ResNet101v2en el original VGGFace2 conjunto de datos de referencia, que contiene 3,3 millones de imágenes con 8631 sujetos racialmente desequilibrados.
Para las pruebas, los investigadores utilizaron el conjunto de datos RFW. El sistema se entrenó cuatro veces, en cuatro niveles diferentes de compresión, lo que resultó en cuatro modelos ArcFace.
Para el conjunto racialmente equilibrado, se emplearon inicialmente los mismos marcos en el original alineado BUPT-Equilibrado conjunto de datos de referencia, que contiene 28,000 rostros equilibrados en los cuatro grupos africano, asiático, indioy caucásico, cada raza representada por 7000 imágenes. Al igual que con el conjunto de datos racialmente desequilibrado, se obtuvieron cuatro modelos ArcFace de esta manera.
Además, los investigadores reprodujeron los efectos del entrenamiento comprimido y no comprimido eliminando el submuestreo de croma para medir su efecto en el rendimiento.
Resultados
Luego se estudió la tasa de coincidencia falsa (FMR) en estos conjuntos de datos generados. Los criterios que buscaban los investigadores estaban predefinidos fenotipos relacionado con las características raciales Tipo de piel (1, 2, 3, 4, 5 o 6), Tipo de párpado (Monolid/Otro), Forma de la nariz (De ancho estrecho), Forma de labios (Completo/Pequeño), Tipo de cabello (Lacio/Ondulado/Rizado/Calvo), y Color de pelo – métricas extraídas del 2019 papel Medición del sesgo oculto en el reconocimiento facial a través de fenotipos raciales.
El documento dice:
‘Observamos que para todos los niveles de compresión seleccionados hacia abajo q = {5, 10, 15, 95}, el FMR aumenta cuando se aplica compresión con pérdida adicional, lo que demuestra que el nivel de compresión 5 (la tasa de compresión más alta) da como resultado la disminución más significativa en el rendimiento de FMR, mientras que el nivel de compresión 95 (la tasa de compresión más baja) no produce ninguna diferencia notable en el rendimiento de FMR.’
El documento concluye:
“En general, nuestra evaluación encuentra que el uso de muestras de imágenes faciales comprimidas con pérdida en el momento de la inferencia reduce el rendimiento de manera más significativa en fenotipos específicos, incluido el tono de piel oscuro, la nariz ancha, el cabello rizado y el ojo monopárpado en todas las demás características fenotípicas.
“Sin embargo, el uso de imágenes comprimidas durante el entrenamiento hace que los modelos resultantes sean más resistentes y limita la degradación del rendimiento encontrada: se mantiene un rendimiento más bajo entre los subgrupos específicos alineados racialmente. Además, la eliminación del submuestreo de croma mejora la FMR para categorías de fenotipo específicas más afectadas por la compresión con pérdida.’
* Mi conversión de las citas en línea de los autores a hipervínculos.
Publicado por primera vez el 22 de agosto de 2022.