Este documento de inteligencia artificial (IA) de Corea del Sur propone FFNeRV: una nueva representación de video por fotogramas que utiliza mapas de flujo por fotogramas y cuadrículas temporales de resolución múltiple

Estás leyendo la publicación: Este documento de inteligencia artificial (IA) de Corea del Sur propone FFNeRV: una nueva representación de video por fotogramas que utiliza mapas de flujo por fotogramas y cuadrículas temporales de resolución múltiple

La investigación sobre campos neuronales, que representan señales asignando coordenadas a sus cantidades (por ejemplo, escalares o vectores) con redes neuronales, se ha disparado recientemente. Esto ha despertado un mayor interés en utilizar esta tecnología para manejar una variedad de señales, que incluyen audio, imagen, forma 3D y video. El teorema de aproximación universal y las técnicas de codificación de coordenadas proporcionan los fundamentos teóricos para una representación precisa de las señales de los campos cerebrales. Investigaciones recientes han demostrado su adaptabilidad en la compresión de datos, modelos generativos, manipulación de señales y representación básica de señales.

La investigación sobre campos neuronales, que representan señales asignando coordenadas a sus cantidades (por ejemplo, escalares o vectores) con redes neuronales, se ha disparado recientemente. Esto ha despertado un mayor interés en utilizar esta tecnología para manejar una variedad de señales, que incluyen audio, imagen, forma 3D y video. El teorema de aproximación universal y las técnicas de codificación de coordenadas proporcionan los fundamentos teóricos para una representación precisa de las señales de los campos cerebrales. Investigaciones recientes han demostrado su adaptabilidad en la compresión de datos, modelos generativos, manipulación de señales y representación básica de señales.

Cada coordenada de tiempo está representada por un cuadro de video creado por una pila de MLP y capas convolucionales. En comparación con el diseño de campo neuronal básico, nuestro método redujo considerablemente el tiempo de codificación y superó las técnicas comunes de compresión de video. Este paradigma es seguido por el E-NeRV sugerido recientemente al mismo tiempo que aumenta la calidad del video. Como se muestra en la Figura 1, ofrecen representaciones neuronales por fotogramas guiadas por flujo para películas (FFNeRV). Incorporan flujos ópticos en la representación de fotogramas para usar la redundancia temporal, inspirándose en los códecs de video comunes. Al combinar fotogramas cercanos liderados por flujos, FFNeRV crea un fotograma de video que impone la reutilización de píxeles de fotogramas anteriores. Animar a la red a evitar recordar los mismos valores de píxel de nuevo en todos los fotogramas mejora drásticamente la eficiencia de los parámetros.

🔥 Recomendado:  Cómo Casey Rooney multiplicó por 50 el tráfico de su blog de comida en menos de 12 meses

FFNeRV supera a los algoritmos alternativos de fotogramas en la compresión de video y la interpolación de fotogramas, según los resultados experimentales en el conjunto de datos UVG. Sugieren el uso de cuadrículas temporales de resolución múltiple con una resolución espacial fija en lugar de MLP para mapear coordenadas temporales continuas a las características latentes correspondientes para mejorar aún más el rendimiento de la compresión. Esto está motivado por las representaciones neuronales basadas en cuadrículas. Además, sugieren utilizar una arquitectura convolucional más condensada. Utilizan convoluciones grupales y puntuales en las representaciones de flujo por fotogramas recomendadas, impulsadas por modelos generativos que producen imágenes de alta calidad y redes neuronales livianas. FFNeRV supera a los códecs de video populares (H.264 y HEVC) y funciona a la par con los algoritmos de compresión de video de vanguardia que usan entrenamiento con reconocimiento de cuantización y codificación de entropía. La implementación del código se basa en NeRV y está disponible en GitHub.