Google AI propone un transformador de calidad de imagen multiescala basado en parches (MUSIQ) para evitar las restricciones de la red neuronal convolucional (CNN) en el tamaño de entrada fijo y predecir la calidad de la imagen de manera efectiva…

Estás leyendo la publicación: Google AI propone un transformador de calidad de imagen multiescala basado en parches (MUSIQ) para evitar las restricciones de la red neuronal convolucional (CNN) en el tamaño de entrada fijo y predecir la calidad de la imagen de manera efectiva…

La evaluación de la calidad de imagen (IQA) es un área de estudio crucial para comprender y mejorar la experiencia visual. Para brindar a los usuarios una mejor experiencia visual, es vital comprender la calidad estética y técnica de las imágenes. IQA utiliza modelos para crear un vínculo entre una imagen y la evaluación del usuario sobre su calidad. Las técnicas IQA modernas y de vanguardia, como NIMA, se basan en redes neuronales convolucionales (CNN). Sin embargo, la restricción de entrenamiento por lotes con respecto a la entrada de forma fija frecuentemente degrada su rendimiento. Las fotografías de entrada generalmente se amplían y recortan en una forma determinada para adaptarse a esto, lo que compromete la calidad de la imagen.

Google Research presentó “MUSIQ: Transformador de calidad de imagen multiescala”, publicado en ICCV 2021, para abordar estos problemas. Este transformador de calidad de imagen multiescala basado en parches (MUSIQ) puede pronosticar con precisión la calidad de imagen en imágenes de resolución nativa al pasar por alto las restricciones de CNN en el tamaño de entrada fijo. Este método sugerido puede capturar la calidad de la imagen en diferentes granularidades utilizando una representación de imagen de múltiples escalas. Para respaldar la incrustación posicional en la representación multiescala, también se proponen una incrustación espacial 2D única basada en hash y una incrustación de escala. MUSIQ se puso a prueba en cuatro conjuntos de datos IQA considerables para ser evaluado. Mostró resultados de vanguardia consistentes en los conjuntos de datos de calidad técnica PaQ-2-PiQ, KonIQ-10k y SPAQ y un rendimiento equivalente a los modelos de última generación en el conjunto de datos de calidad estética AVA.

🔥 Recomendado:  4 formas en que las listas de deseos pueden impulsar las ventas en línea

El principal punto de venta de MUSIQ es que asume el problema de enseñar IQA utilizando imágenes de entrada de tamaño completo. A diferencia de los modelos CNN, que con frecuencia están restringidos a una resolución establecida, puede aceptar entradas con varias resoluciones y proporciones de aspecto. Para hacer esto, primero se creó una representación a varias escalas de la imagen de entrada, que abarca tanto la imagen de resolución original como sus variaciones reducidas. Después de la creación de la pirámide de imágenes, las imágenes se dividen en parches de tamaño fijo en varias escalas y se introducen en el modelo. La relación de aspecto de la imagen se conserva después de cambiar el tamaño para proteger la composición.

La entrada de escala múltiple de relación de aspecto múltiple debe codificarse en una secuencia de tokens, recopilando información de píxeles, espacial y de escala, ya que las imágenes de resoluciones variadas componen los parches. Para ello, el equipo creó tres elementos de codificación para MUSIQ. Se incluye un módulo de codificación de parches en el primer componente para codificar parches tomados de la representación multiescala. El segundo componente consta de un módulo de incrustación espacial único basado en hash para codificar la posición espacial 2D para cada parche. El tercer componente es una incrustación de escala aprendible para codificar diferentes escalas. Los investigadores codificaron con éxito la entrada multiescala como una serie de fichas, que luego usaron como la entrada del codificador del Transformador.

Los investigadores siguieron el procedimiento convencional de agregar un “token de clasificación” (CLS) adicional que se pueda aprender a la predicción final del puntaje de calidad de la imagen. La representación final de la imagen es el estado del token CLS en la salida del codificador del transformador. Además, se construye una capa totalmente conectada en la parte superior para pronosticar el IQS. MUSIQ es compatible con todas las variaciones de Transformer porque solo modifica la codificación de entrada, otra característica crítica que será útil para la comunidad.

🔥 Recomendado:  Trabajar en casa mientras se vive con una enfermedad crónica

En una variedad de conjuntos de datos IQA considerables, se evaluó MUSIQ. Para cada conjunto de datos, se proporcionó la correlación entre la predicción del modelo y la puntuación de opinión media de los evaluadores humanos, medida por el coeficiente de correlación de rangos de Spearman (SRCC) y el coeficiente de correlación lineal de Pearson (PLCC). Se muestra una mejor congruencia entre las predicciones del modelo y la evaluación humana por PLCC y SRCC más altos. Se concluyó que MUSIQ funciona mejor en PaQ-2-PiQ, KonIQ-10k y SPAQ que otros enfoques. En particular, el conjunto de prueba PaQ-2-PiQ se compone exclusivamente de imágenes de tamaño considerable, cada una de las cuales tiene al menos una dimensión de más de 640 píxeles. Esto es bastante difícil para los métodos estándar de aprendizaje profundo, que requieren escalado. En el conjunto de prueba de tamaño completo, MUSIQ puede funcionar notablemente mejor que las técnicas anteriores, lo que demuestra la durabilidad y la eficiencia del sistema.

También es importante tener en cuenta que las técnicas anteriores basadas en CNN con frecuencia necesitaban probar muestras de hasta 20 recortes diferentes para cada imagen. Además, debido a que los enfoques basados ​​en CNN muestrean una variedad de cultivos, pueden introducir aleatoriedad en el resultado y al mismo tiempo aumentar el costo de inferencia para cada cultivo. Por otro lado, MUSIQ solo necesita ejecutar la inferencia una vez porque acepta la imagen de tamaño completo como entrada y, por lo tanto, puede aprender directamente el agregado óptimo de información en toda la imagen. El equipo también notó que MUSIQ tiende a concentrarse en áreas más globales en las fotos a escala y en áreas más detalladas en imágenes de alta resolución. Esto demuestra cómo el modelo puede captar la calidad de la imagen en varias granularidades.

🔥 Recomendado:  Adept recauda $ 350 millones en la Serie B para crear un asistente de inteligencia artificial que puede automatizar los procesos de software

En pocas palabras, el transformador de calidad de imagen multiescala (MUSIQ) de Google puede procesar la entrada de imágenes de tamaño completo con una variedad de resoluciones y relaciones de aspecto. El modelo puede capturar la calidad de la imagen en varias granularidades traduciendo la imagen de entrada en una representación de varias escalas con vistas globales y locales. MUSIQ se puede utilizar en diversas situaciones en las que las etiquetas de tareas son sensibles a la resolución de la imagen y la relación de aspecto, aunque se creó para IQA. Uno puede encontrar más información sobre el modelo en su repositorio GitHub.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘MUSIQ: Transformador de calidad de imagen multiescala‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, enlace github y artículo de referencia.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools