Los investigadores de Max Plank proponen un predictor métrico de la forma de la cara llamado MICA (MetrIC fAce)

Estás leyendo la publicación: Los investigadores de Max Plank proponen un predictor métrico de la forma de la cara llamado MICA (MetrIC fAce)

La reconstrucción 3D de rostros humanos es un componente esencial de varias aplicaciones de Realidad Aumentada (AR) y Realidad Virtual (VR). La mayoría de los métodos de vanguardia para la reconstrucción facial a partir de una sola imagen RGB se entrenan de manera autosupervisada en grandes conjuntos de datos de imágenes 2D. Sin embargo, cuando el rostro está en un contexto métrico (es decir, cuando hay un objeto de referencia de tamaño conocido, típico de las aplicaciones de VR/AR), las soluciones existentes no pueden reproducir la escala y la forma correctas del rostro humano. Esto sucede ya que, al asumir una cámara en perspectiva, la escala de un rostro es ambigua. De hecho, un rostro grande se puede modelar a través de un rostro enorme alejado de la cámara oa través de un rostro pequeño que se encuentra muy cerca de la cámara.

Immagine che contiene testo, lavagnabianca Descrizione generata automaticamenteNotas escritas a mano por Luca (personal de investigación de Marktechpost)

Por las razones antes mencionadas, un grupo de investigadores del Instituto Max Planck para Sistemas Inteligentes de Tübingen (Alemania) propuso utilizar el aprendizaje automático supervisado para aprender mejor la forma real de los rostros humanos. Al mismo tiempo, dado que no existe un conjunto de datos 3D a gran escala para realizar esta tarea, los autores también unificaron un conjunto de conjuntos de datos existentes a pequeña y mediana escala. Este conjunto de datos unificado contiene imágenes RGB y las caras reconstruidas en 3D correspondientes.

Como se muestra en la Figura 1, dada una única imagen RGB de una persona, MICA (MetrIC fAce), el método propuesto en este documento genera una geometría de la cabeza con una expresión neutra. En la siguiente parte del artículo, veremos cómo se logra este proceso.

🔥 Recomendado:  Guía de las 11 mejores cosas para hacer en Silver Springs State Park en Ocala, FL

La parte superior de la Figura 2 (es decir, Estimación de forma métrica generalizada) muestra cómo funciona MICA. Para predecir la forma métrica de un rostro humano en una expresión neutra, MICA se basa en datos métricos 3D y 2D en estado salvaje para entrenar una red neuronal profunda. Los autores utilizaron una red de reconocimiento facial de última generación llamada ArcFace, que está previamente entrenada en un conjunto de datos de imágenes 2D a gran escala para obtener características altamente discriminatorias para el reconocimiento facial. Esta red preentrenada es resistente a la expresión facial, la iluminación y los cambios de cámara. La arquitectura de ArcFace se ha extendido a través de una red de mapeo cuyo propósito es mapear las características de ArcFace a un espacio latente que un decodificador de geometría puede interpretar posteriormente. De hecho, el paso final del proceso involucra un Modelo 3D Morphable (3DMM) llamado FLAME que genera la forma geométrica basada en las características de ArcFace.

La red descrita ha sido entrenada en datos 2D y 3D de forma supervisada. Durante el proceso de capacitación, solo se refinaron y actualizaron los últimos 3 bloques ResNet de la red ArcFace para evitar el sobreajuste y mejorar las capacidades de generalización de MICA.

Finalmente, en la parte inferior de la Figura 2 se representa un proceso de Seguimiento de Expresión implementado por los autores, basado en secuencias de entrada RGB y la reconstrucción métrica aprendida de la forma de la cara. Para implementar este rastreador facial, los autores implementaron el principio de análisis por síntesis: dado un modelo que reproduce la apariencia de un sujeto, los parámetros del modelo se actualizan y corrigen para que las imágenes sintetizadas se ajusten a las imágenes de entrada lo mejor posible. Este modelo se inicializa con los parámetros del componente 3DMM de MICA. Luego, se ajusta para aprender la desviación de una imagen de entrada desde una pose neutral. De esta forma, es posible obtener un rastreador de movimiento 3D.

🔥 Recomendado:  Descubra cómo superar los desafíos de la agencia y hacer crecer su negocio

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Hacia la reconstrucción métrica de rostros humanos‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, proyecto y enlace github.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools