Conozca DifFace: un novedoso modelo difuso de aprendizaje profundo para la restauración de rostros ciegos

Estás leyendo la publicación: Conozca DifFace: un novedoso modelo difuso de aprendizaje profundo para la restauración de rostros ciegos

Mirando fotos realmente antiguas, podemos notar una clara diferencia con las producidas por cámaras recientes. Las fotos borrosas o pixeladas alguna vez fueron bastante comunes. Dado que el ideal de la calidad de la foto está relacionado con los detalles, la definición y la nitidez, es fácil entender por qué las fotos antiguas no pueden ofrecer estos estándares de calidad. De hecho, notamos la gran diferencia entre las imágenes producidas por cámaras antiguas y recientes. Sin embargo, estos problemas a menudo también se repiten en imágenes recientes, según el obturador de la cámara o la configuración del entorno.

¿Qué pasaría si hubieras tomado o hubieras tomado retratos borrosos cuyos detalles son bastante difíciles de distinguir? ¿Se ha preguntado alguna vez si es posible y, en caso afirmativo, cómo transformar estas imágenes borrosas en imágenes nítidas, de alta definición y detalladas?

La restauración de cara ciega (BFR) es lo que necesitamos. Se refiere a la tarea de reconstruir una imagen clara y fiel del rostro de una persona a partir de una imagen de entrada degradada (por ejemplo, con ruido o borrosa) o de baja calidad. Este desafiante problema ha atraído una atención significativa en el procesamiento de imágenes y la visión por computadora debido a su amplia gama de aplicaciones prácticas, como vigilancia, biometría y redes sociales.

En los últimos años, los métodos de aprendizaje profundo han surgido como un enfoque prometedor para la restauración de rostros ciegos. Estos métodos, basados ​​en redes neuronales artificiales, han demostrado resultados impresionantes en varios puntos de referencia y pueden aprender mapeos complejos a partir de datos sin necesidad de funciones hechas a mano o modelado explícito del proceso de degradación.

🔥 Recomendado:  Cómo crear GIF para historias de Instagram (guía 2023)

Estas técnicas se enfocan en muchas métricas, formulaciones y parámetros complejos para mejorar la calidad de la restauración. La pérdida de entrenamiento L1 se usa comúnmente para garantizar la fidelidad. Los métodos BFR recientes introducen la pérdida por confrontación y la pérdida perceptiva para lograr resultados más realistas. Algunos otros enfoques existentes también explotan antecedentes específicos de rostros, por ejemplo, puntos de referencia faciales, componentes faciales y antecedentes generativos. Tener en cuenta tantas restricciones juntas hace que el entrenamiento sea innecesariamente complicado, lo que a menudo requiere un laborioso ajuste de hiperparámetros para compensar estas restricciones. Peor aún, la notoria inestabilidad de la pérdida adversaria hace que el entrenamiento sea más desafiante.

Se ha desarrollado un método novedoso llamado DifFace para superar estos problemas. Puede hacer frente a degradaciones complejas e invisibles con más gracia que las técnicas más modernas sin diseños de pérdida complicados. La clave principal es la distribución posterior de la imagen de entrada de baja calidad (LQ) a su contraparte de alta calidad (HQ). Específicamente, se explota una distribución de transición desde la imagen LQ al estado intermedio de un modelo de difusión previamente entrenado y luego se transmite gradualmente desde este estado intermedio al objetivo HQ mediante la aplicación recursiva de un modelo de difusión previamente entrenado.

La siguiente imagen ilustra el marco propuesto.

La inferencia involucra una variable difusa intermedia xN (con Nestimador difuso. Representa una arquitectura de red neuronal desarrollada para estimar el paso de difusión xN de la imagen de entrada y0. A partir de este estado intermedio, se infiere entonces el x0 deseable. Hacerlo trae varias ventajas. En primer lugar, este enfoque es más eficiente que el proceso completo de difusión inversa de xT a x0, ya que se puede explotar un modelo de difusión previamente entrenado (de xN a x0). En segundo lugar, no hay necesidad de volver a entrenar el modelo de difusión desde cero. Además, este método no requiere múltiples restricciones en el entrenamiento y, sin embargo, es capaz de lidiar con degradaciones desconocidas y complejas.

🔥 Recomendado:  SEO vs SEM: ¿Cuál es la diferencia y cuál es mejor en 2023?

Los resultados y la comparación de DifCara y otros enfoques de vanguardia se presentan en la siguiente figura.

Mirando los detalles de las imágenes generadas, es evidente que DifCara produce Imágenes nítidas, de gran detalle y de alta calidad a partir de imágenes de entrada degradadas, borrosas y de baja calidad que superan las técnicas más modernas.

Este fue el resumen de DifCaraun marco novedoso para abordar la Restauración de cara ciega problema. Si estás interesado, puedes encontrar más información en los siguientes enlaces.