Esta investigación de IA de inteligencia artificial propone un método novedoso de generación de rostros NIR-VIS para abordar el problema de la insuficiencia de datos NIR-VIS para el rostro de modalidad cruzada…

Estás leyendo la publicación: Esta investigación de IA de inteligencia artificial propone un método novedoso de generación de rostros NIR-VIS para abordar el problema de la insuficiencia de datos NIR-VIS para el rostro de modalidad cruzada…

El reconocimiento facial a través de imágenes de infrarrojo cercano (NIR) y VIS ha ganado recientemente una atención cada vez mayor en la comunidad de visión por computadora para superar el problema de que los métodos tradicionales de reconocimiento facial de imágenes VISibles (VIS) generalmente no logran un rendimiento satisfactorio con poca iluminación. Sin embargo, el entrenamiento de la red de reconocimiento facial NIR-VIS es propenso a sobreajustarse debido a la falta de suficientes datos NIR-VIS. Esfuerzos anteriores intentaron construir imágenes faciales NIR-VIS a gran escala convirtiendo datos VIS en imágenes NIR para evitar el sobreajuste. Sin embargo, los algoritmos de traducción de imagen a imagen están limitados por la cantidad de datos en el dominio de origen y la variedad de imágenes creadas.

Recientemente, se han utilizado modelos generativos incondicionales para sintetizar pares heterogéneos de imágenes faciales a partir del ruido y lograr un rendimiento de vanguardia al incluir los numerosos cambios internos de los conjuntos de datos NIR-VIS objetivo, como posturas e iluminación, durante la creación. A pesar de tener en cuenta la variedad dentro de la clase, solo se crea un par NIR-VIS para cada identidad, lo que limita el potencial de las imágenes de rostros sintéticos en la prueba de identificación de rostros NIR-VIS. Cuando generan varios emparejamientos de imágenes NIR-VIS para una identidad en particular, notan que la consistencia de la identidad podría mantenerse mejor, como se ve en la Fig. 1. (a).

🔥 Recomendado:  Los investigadores de CMU presentan FROMAGe: un modelo de IA que arranca de manera eficiente los modelos de lenguaje grande (LLM) congelados para generar texto de formato libre intercalado con imágenes

Además, las variaciones de apariencia de las imágenes creadas dependen de los conjuntos de datos de reconocimiento facial NIR-VIS de destino, lo que significa que se sintetizan diferentes imágenes faciales para que coincidan con varios conjuntos de datos de destino. La capacidad de generalización de las redes de reconocimiento de encuentros NIR-VIS sufre de tal síntesis de rostros específica del conjunto de datos. Para abordar los problemas mencionados anteriormente, presentan un enfoque único de creación de imágenes faciales basado en la física que genera pares de imágenes faciales NIR-VIS de alta calidad a partir de activos faciales 3D renderizables obtenidos. Podemos obtener datos de entrenamiento etiquetados emparejados con identidad, posición, expresión e iluminación ajustables mediante la representación de conjuntos de datos faciales 3D fotorrealistas.

Investigaciones recientes han propuesto formas de generar componentes renderizables de alta calidad a partir de fotografías faciales arbitrarias. A diferencia de los enfoques generativos, la identidad mostrada no cambia mientras se modifican otros parámetros, lo que facilita considerablemente el entrenamiento. Sin embargo, la recopilación de elementos de representación humana requiere una cantidad significativa de trabajo manual, ya sea por parte de los sistemas de escaneo o de los artistas. Los conjuntos de datos accesibles son demasiado pequeños o carecen de reflectancias que se pueden volver a encender, como albedo difuso, albedo especular y normales. Además, Wood et al. demostró que los datos faciales sintéticos de alta calidad podrían utilizarse con éxito para tareas de visión artificial, como la localización de puntos de referencia y el análisis facial.

Sin embargo, según su conocimiento, no existe ningún conjunto de datos o enfoque para generar caras 3D renderizables en los dominios VIS y NIR. Construyen varios activos faciales de este tipo, los traducen de VIS a NIR y luego los muestran en las mismas circunstancias para obtener datos de entrenamiento de alta calidad utilizando un enfoque de recolección de reflectancia facial de vanguardia. La identificación de la persona se conserva por completo tanto en NIR como en VIS porque su nuevo proceso de transformación se usa por píxel en mapas de reflectancia de alta resolución. La Figura 1 muestra las caras creadas por los enfoques sugeridos (b). Como se puede observar, su creación de rostros NIR-VIS supera la Fig. 1 (a) en términos de consistencia de identificación y diversidad de apariencia facial.

🔥 Recomendado:  Los artículos de moda vegana de calidad son difíciles de encontrar. ¿Cómo pueden ayudar las marcas?

Para ayudar al aprendizaje de características de identidad mientras se reduce la discrepancia de modalidad, se presenta una pérdida de discrepancia media máxima basada en identidad (ID-MMD). Esta pérdida acerca los centroides de características de la misma identidad en los dominios NIR y VIS. La pérdida de ID-MMD ayuda a cerrar la brecha entre las imágenes NIR y VIS a nivel de dominio. Al mismo tiempo, se enseña a la red a centrarse en los rasgos de identificación en lugar de los aspectos faciales de las instancias, como las posturas y los accesorios. El conjunto de datos de imagen facial NIR-VIS de alta calidad resultante se utiliza luego para entrenar el NIR-VIS para cumplir con los requisitos de la red de reconocimiento junto con un conjunto de datos de reconocimiento facial VIS.

En general, sus principales contribuciones se pueden resumir de la siguiente manera:

  • Se sugiere un sistema capaz de crear volúmenes masivos de imágenes emparejadas de rostros NIR y VIS de diversas identidades, posiciones e iluminación utilizando reconstrucción facial 3D y una notable transformación de VIS a NIR para la reflectancia facial.
  • Sugieren una pérdida de discrepancia media máxima basada en la identidad (ID-MMD) para cerrar la brecha entre las imágenes NIR y VIS, lo que minimiza la discrepancia de modalidad a nivel de dominio y motiva a la red a prestar atención a los rasgos de identidad en lugar de los detalles de la cara.
  • Las pruebas exhaustivas en cuatro puntos de referencia de reconocimiento facial NIR-VIS muestran que la técnica propuesta supera los algoritmos de última generación y no requiere un conjunto de datos de reconocimiento facial NIR-VIS existente. Su estrategia supera a SOTA al ajustar ligeramente los modelos en el conjunto de datos de reconocimiento facial NIR-VIS de destino.
🔥 Recomendado:  Cómo pronunciar Bruschetta y 8 alimentos más

Todo el código base del proyecto está disponible gratuitamente en GitHub.

Revisar la Papel, Herramientay enlace GitHub. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestra página de Reddit y canal de discordiadonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools