Este documento de inteligencia artificial de la Universidad Queen Mary de Londres propone un marco de reconocimiento facial basado en transformadores de visión

Estás leyendo la publicación: Este documento de inteligencia artificial de la Universidad Queen Mary de Londres propone un marco de reconocimiento facial basado en transformadores de visión

El reconocimiento facial ahora está en todas partes. Lo que antes se pensaba que era una innovación muy avanzada ahora se ha convertido en parte de nuestra vida diaria. Confiamos en tales modelos computacionales para algo tan fundamental como garantizar la privacidad y brindar seguridad en los teléfonos inteligentes a través de la autenticación biométrica para ayudar a los gobiernos con los controles fronterizos y otras formas de vigilancia. La enorme demanda de aplicaciones de reconocimiento facial en todo el mundo exige una investigación exhaustiva para mejorar aún más las soluciones de reconocimiento facial actuales.

Las redes neuronales convolucionales, o CNN, son la base detrás de las aplicaciones de reconocimiento facial más solicitadas. Esta clase de redes neuronales artificiales está especialmente entrenada para identificar y reconocer patrones tanto en personas como en objetos, haciéndolos valiosos en dominios como la visión artificial. Aunque los modelos existentes han demostrado un rendimiento impresionante, aún queda mucho por aprender sobre diversos algoritmos y metodologías de reconocimiento facial. Los transformadores de visión (ViT) son uno de esos cursos desconocidos.

Un grupo de investigadores de la Universidad Queen Mary de Londres dio un paso hacia este territorio inexplorado al comprender mejor los transformadores de visión para desarrollar una arquitectura nueva y futura para el reconocimiento facial. Su arquitectura propuesta utiliza una metodología completamente única que no se ha considerado antes para extraer rasgos faciales de las imágenes.

🔥 Recomendado:  Cómo este Google-for-Analytics basado en Mumbai automatiza la generación de datos para obtener información

Los ViT examinan las imágenes de manera diferente a como lo hacen las CNN. Las CNN analizan las imágenes como un todo y requieren una matriz uniformemente espaciada para realizar la operación de convolución. Por otro lado, los ViT dividen una imagen en parches de un tamaño específico, luego procesan esos parches agregando incrustaciones. La secuencia de vectores resultante luego se pasa a un transformador, que aprende pesos en función de los diversos componentes de los datos que examina. De manera similar a cómo el rostro humano es una estructura compleja formada por varios puntos de referencia, estos parches discriminatorios ayudan a ViT a obtener un rendimiento sobresaliente con respecto al reconocimiento facial. Esto motivó a los investigadores a investigar el reconocimiento facial basado en partes mediante la aplicación de ViT a parches que representaban varios componentes faciales.

Los investigadores tomaron principalmente dos decisiones de diseño importantes que siguieron un camino diferente al enfoque convencional. El primero implica el uso de un transformador de visión como arquitectura subyacente para entrenar una red de reconocimiento facial. Esta tubería, que el equipo llama parte fViT, comprende un transformador de visión y una red liviana. La red es responsable de predecir puntos de referencia faciales como los ojos, la nariz y otras características, mientras que el transformador examina las áreas que contienen los marcadores indicados. La segunda estrategia poco convencional del equipo involucró el uso de la capacidad incorporada del transformador para interpretar datos de tokens visuales recopilados de parches para crear una tubería que evoca las técnicas de reconocimiento facial basadas en partes.

🔥 Recomendado:  Un nuevo punto de referencia de inteligencia artificial (IA) llamado DeepPrivacy2 proporciona anonimización realista de rostros humanos y todo el cuerpo

Se utilizaron dos conjuntos de datos populares, el MS1MV3 (que incluye datos faciales de más de 93 000 personas) y el VGGFace2 (que contiene 3,1 millones de imágenes de más de 8 000 personas) para entrenar a varios transformadores. Los investigadores también probaron exhaustivamente su modelo durante la fase de evaluación. El equipo hizo un esfuerzo adicional para evaluar la relación entre ciertas características y el rendimiento de su modelo mediante la modificación de ciertos puntos de referencia faciales. Su arquitectura superó a la mayoría de los modelos de reconocimiento facial de última generación existentes para todos los conjuntos de datos en los que se probó. Además, sin un entrenamiento especial, su modelo también pareció distinguir con éxito los puntos de referencia faciales.

Los investigadores esperan que su trabajo motive a otros a realizar estudios adicionales sobre el uso de transformadores faciales como arquitecturas para un reconocimiento facial extremadamente preciso. Además, la integración de su diseño en varias aplicaciones y software será útil para un análisis más detallado de los puntos de referencia faciales.