Investigadores de IA de la Universidad de Hong Kong proponen un marco Python unificado, denominado Face Feature Rectification Network (FFR-Net), para el reconocimiento facial con o sin máscara

Estás leyendo la publicación: Investigadores de IA de la Universidad de Hong Kong proponen un marco Python unificado, denominado Face Feature Rectification Network (FFR-Net), para el reconocimiento facial con o sin máscara

El reconocimiento facial es un área de investigación que ha sido ampliamente estudiada en los últimos años. Ha tenido mucho éxito y ha logrado un rendimiento satisfactorio. Sin embargo, con la pandemia de covid19, usar mascarilla ha sido un verdadero desafío para las redes de reconocimiento facial. La máscara oculta gran parte de la cara y provoca un problema de oclusión.

Podemos distinguir dos métodos principales en la literatura para solucionar el problema de oclusión causado por el uso de mascarilla. El primer enfoque ignora por completo las características extraídas del área de la máscara. De hecho, esta técnica evita las características dañadas, pero también provoca una pérdida de información facial global. El segundo enfoque trata de restaurar la parte oculta del rostro utilizando generalmente redes generativas de confrontación. Sin embargo, esta estrategia no conserva la información de identidad en el espacio espacial.

Un artículo publicado recientemente introdujo un nuevo enfoque para reconocer rostros con y sin máscara. La nueva red es un marco unificado denominado Face Feature Rectification Network (FFR-Net), que utiliza bloques de rectificación con la intención de rectificar las características extraídas por un codificador (columna vertebral) tanto en el canal como en las dimensiones espaciales.

Los autores introdujeron dos bloques de rectificación en paralelo, ChnRec y SpcRec, que se pueden agregar a cualquier codificador de última generación. Los dos bloques se implementan sobre las características extraídas. ChnRec se ocupa de la dimensión del canal, mientras que SpcRec se ocupa de la dimensión espacial. La salida de cada bloque es la multiplicación de las características extraídas por el codificador (características originales) y una matriz de rectificación denominada M. Las salidas obtenidas de cada bloque se fusionan luego con las características originales.

🔥 Recomendado:  Cómo encontrar tableros de grupos de Pinterest para generar tráfico

Dado que es fundamental predecir bien la matriz M, se han propuesto dos técnicas para llevar a cabo esta tarea: Autosimilitud y Simetría espacial. Se propone la autosimilitud para calcular las matrices de similitud de coseno entre los vectores de características tanto en el canal como en las dimensiones espaciales para superar la pérdida de estructura facial causada por la oclusión de la máscara. Por otro lado, ChnRec busca elegir canales que extraen características de regiones sin máscara mientras excluye aquellas de áreas enmascaradas, y puede enfocarse en un solo lado de la cara e ignorar la similitud. Spacial Semmutry, un bloque de fusión volteado, se agrega como el último paso de ChnRec para impulsarlo a conservar la simetría espacial.

Las funciones de pérdida se eligieron para lograr tres objetivos: consistencia de identidad, robustez de máscara y clasificación precisa. La pérdida de identidad tiene como objetivo lograr dos objetivos: mantener intactas las características extraídas de las caras sin máscara y rectificar las características extraídas de las caras con máscara. Además, la pérdida del triplete se utiliza para hacer más pequeña la distancia entre la representación rectificada (ancla) y la representación de la contraparte sin máscara y más grande la distancia entre el ancla y la representación original del mismo rostro enmascarado. Finalmente, se eligió la función CosFace como pérdida de clasificación.

Para evaluar FFR-Net, los autores llevaron a cabo un estudio experimental sobre el conjunto de datos LFW para la tarea de verificación de rostros y MegaFace para la tarea de identificación de rostros. La precisión de la red en datos sin máscara, la precisión en máscaras y la precisión promedio se utilizaron como métricas. Los resultados demuestran que el nuevo marco unificado propuesto en este documento logra un rendimiento competitivo, especialmente considerando la precisión promedio. Además, un estudio de ablación muestra que los dos bloques de rectificación (canal y espacial) son eficientes y mejoran el rendimiento general de la red.

🔥 Recomendado:  Olive Garden se está recuperando. ¿Pueden los datos sociales explicar por qué?

En este artículo, los investigadores propusieron unificar el problema del reconocimiento facial para conjuntos de datos que contienen imágenes de rostros sin máscaras y otros compuestos por imágenes de rostros con máscaras. Introdujeron un novedoso bloque de rectificación de canales y espacios con el objetivo de rectificar las características extraídas tanto en dimensiones espaciales como de canales para lograr su objetivo. La evaluación de este enfoque ha demostrado su eficacia.

Este artículo está escrito como un artículo de resumen por el personal de Marktechpost basado en el trabajo de investigación ‘UN MARCO UNIFICADO PARA EL RECONOCIMIENTO FACIAL CON Y SIN MÁSCARA A TRAVÉS DE LA RECTIFICACIÓN DE CARACTERÍSTICAS‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools