Estás leyendo la publicación: Una investigación de China propone un nuevo transformador de visión sensible al contexto (CA-ViT) para obtener imágenes de alto rango dinámico sin fantasmas
Al fusionar muchas fotografías de bajo rango dinámico (LDR) con diferentes exposiciones, las imágenes de alto rango dinámico (HDR) de múltiples cuadros intentan proporcionar imágenes con un rango dinámico más amplio y características más realistas. Sin embargo, en realidad, los movimientos de la cámara y los objetos dinámicos en primer plano contradicen con frecuencia este escenario ideal, lo que genera distorsiones de imágenes fantasma negativas en los resultados HDR reconstruidos. Se han sugerido varias técnicas conocidas como algoritmos HDR de-ghosting para generar fotos HDR de alta calidad y sin fantasmas. Tradicionalmente, numerosos enfoques incluyen la corrección de las imágenes LDR de entrada o la exclusión de píxeles desalineados antes de la fusión de imágenes para reducir los efectos fantasma.
Sin embargo, la alineación exacta es compleja y el impacto HDR general disminuye cuando se pierde información relevante debido a un rechazo deficiente de píxeles. Como resultado, se han desarrollado algoritmos de aprendizaje basados en CNN que exploran características en profundidad de manera basada en datos para abordar el fenómeno de las imágenes fantasma. Las técnicas actuales de eliminación de fantasmas basadas en CNN pueden dividirse en general en dos grupos. En la primera categoría, se utiliza la homografía o el flujo óptico para alinear previamente las imágenes LDR, y luego se utiliza una CNN para realizar la fusión de múltiples cuadros y la reconstrucción HDR. Sin embargo, el flujo óptico es inconsistente en presencia de oclusiones y saturaciones, y la homografía no puede alinear objetos en movimiento en primer plano. Para manejar los artefactos fantasma y lograr un rendimiento de vanguardia, la segunda categoría sugiere redes de extremo a extremo con módulos de alineación implícitos o algoritmos de aprendizaje únicos.
Sin embargo, las restricciones se hacen evidentes en presencia de movimientos de objetos distantes y cambios de intensidad significativos. La restricción de ubicación integrada de Convolution explica la situación. CNN es inadecuado en la dependencia de modelado de largo alcance (como los efectos fantasma provocados por un movimiento significativo) ya que requiere apilar capas profundas para generar un amplio campo receptivo. Además, dado que se utilizan los mismos núcleos en toda la imagen, las circunvoluciones ignoran las fluctuaciones de intensidad de largo alcance de varias áreas de la imagen. Por lo tanto, se requiere una mayor mejora del rendimiento mediante la investigación de algoritmos dependientes del contenido con capacidad de modelado de largo alcance.
Debido a sus mejores capacidades de modelado de largo alcance, el interés de investigación en Vision Transformer (ViT) ha aumentado últimamente. Sin embargo, los hallazgos experimentales apuntan a dos problemas importantes que impiden su uso en HDR de-ghosting. La generalización no ocurre cuando se entrena con datos insuficientes, a pesar de que los conjuntos de datos disponibles para la eliminación de fantasmas HDR son limitados debido al costo extravagante de recopilar grandes cantidades de muestras etiquetadas realistas. Por otro lado, los transformadores carecen de los sesgos inductivos inherentes a CNN.
Por el contrario, las asociaciones de píxeles vecinos tanto del intra-fotograma como del inter-fotograma son cruciales para recuperar las características locales en numerosos fotogramas. Sin embargo, el Transformador puro no logra obtener dicho contexto local. Para hacer esto, sugieren un nuevo Transformador de Visión Consciente del Contexto (CAViT), que está diseñado con una arquitectura de doble rama para capturar simultáneamente las dependencias globales y locales.
Utilizan un codificador Transformer de cabezales múltiples basado en ventanas para la rama global con el fin de capturar contextos distantes. Crean un extractor de contexto local (LCE) para la sucursal local que extrae los mapas de características locales a través de un bloque convolucional y elige las características más beneficiosas entre varios marcos utilizando un método de atención de canal. Por lo tanto, el CA-ViT sugerido permite la interacción de configuraciones locales y globales. Presentan una nueva arquitectura basada en transformadores (denominada HDR-Transformer) para fotografía HDR sin fantasmas mediante la integración con CA-ViT. En particular, una red de extracción de características y una red de reconstrucción HDR constituyen la mayor parte del HDR-Transformer propuesto. Usando un módulo de atención espacial, la red de extracción de características extrae características poco profundas y las fusiona de manera gruesa.
El CA-ViT sugerido es el bloque de construcción fundamental para la red de reconstrucción HDR construida jerárquicamente. Para reconstruir fotos HDR de alta calidad y libres de fantasmas, los CA-ViT describen artefactos de fantasmas de largo alcance e interacción de píxeles locales. Esto elimina la necesidad de apilar bloques de convolución intensos.
Las principales contribuciones de este estudio se pueden resumir de la siguiente manera:
- Proponen un transformador de visión novedoso denominado CA-ViT que puede utilizar completamente las dependencias del contexto de la imagen global y local al mismo tiempo que supera a sus predecesores por un amplio margen.
- Presentan un HDR-Transformer único que puede reducir los costos de procesamiento, los artefactos fantasma y recrear fotos HDR de alta calidad. Este es el primer marco HDR de eliminación de fantasmas basado en Transformer que se desarrollará.
- Realizan pruebas exhaustivas en tres conjuntos de datos HDR de referencia de muestra para comparar los transformadores de rendimiento HDR con las técnicas actuales de vanguardia.
La implementación del código oficial de este documento está disponible en Github.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Imágenes de alto rango dinámico sin fantasmas con transformador sensible al contexto‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools