Estás leyendo la publicación: Los investigadores proponen una red de codificación de video (FVC) en el espacio de funciones mediante la realización de todas las operaciones principales en el espacio de funciones
La mejora constante en las tecnologías de visualización y los nuevos tipos de representación de medios emergentes, como los videos de 360 grados, permitieron que los videos tuvieran mejores características visuales, como resoluciones más altas, profundidad de color, etc. necesidad de una mejor compresión de video.
Los códecs de video tradicionales están cuidadosamente diseñados por comités de estandarización. Cada generación de códec de video puede mejorar significativamente la eficiencia de codificación en comparación con la versión anterior mediante la introducción de nuevas herramientas de codificación y/o la mejora de las existentes.
Las mejoras basadas en el aprendizaje automático para la compresión de video han sido un tema de investigación activo en los últimos años, gracias al rápido avance en el campo del aprendizaje profundo. Los enfoques basados en el aprendizaje profundo se han utilizado como una alternativa mejorada a ciertos componentes de codificación de video, y su rendimiento es digno de mención. Sin embargo, la principal pregunta abierta queda por responder. ¿Es posible lograr un rendimiento de compresión de última generación confiando únicamente en un método basado en el aprendizaje automático de extremo a extremo? Esta es la pregunta que FVC está tratando de responder.
Hasta ahora, la mayoría de los trabajos en el campo de la compresión de video basada en el aprendizaje automático se centraron en operaciones a nivel de píxel, como la compensación de movimiento para explotar información redundante en el video. Sin embargo, estas operaciones a nivel de píxel tienen ciertos inconvenientes.
En primer lugar, obtener datos precisos de flujo óptico a nivel de píxel es un desafío, especialmente para videos con patrones de movimiento intrincados y no rígidos. En segundo lugar, incluso cuando los datos de movimiento se extraen con la precisión adecuada, el procedimiento de corrección de movimiento a nivel de píxel aún puede generar artefactos innecesarios. En tercer lugar, comprimir la información sobrante a nivel de píxel también es un problema complicado.
Por lo tanto, FVC propone utilizar un método de codificación de video basado en el espacio de funciones en lugar de depender de las operaciones a nivel de píxel. En primer lugar, la estimación del movimiento se realiza utilizando las representaciones derivadas de dos fotogramas sucesivos. Estos son los mapas de compensación obtenidos a partir de núcleos de convolución con convolución deformable.
Luego, los mapas de desplazamiento se comprimen utilizando una red de estilo de codificador automático. Los mapas de desplazamiento decodificados se emplean luego en un proceso de convolución deformable para proporcionar una característica prevista para una compensación de movimiento más precisa.
La característica residual entre la entrada original y las características proyectadas luego se comprime utilizando otra red de tipo codificador automático. Para mejorar la reconstrucción de cuadros, se utiliza un módulo de fusión de características de varios cuadros. Combina una colección de características de referencia de varios marcos anteriores.
Al ejecutar todas las operaciones en el espacio de funciones en lugar de en el nivel de píxeles, FVC puede mejorar el rendimiento de la compresión de video y reducir los errores causados por las imprecisiones en los procesos a nivel de píxeles, como la estimación de movimiento. FVC logra un rendimiento de vanguardia en cuatro conjuntos de datos de referencia, incluidos HEVC, UVG, VTL y MCL-JCV ampliamente utilizados, lo que demuestra la eficacia de la metodología sugerida. Además, el tiempo de codificación de FVC es comparable a la implementación de HEVC de referencia; por lo tanto, es posible usarlo en escenarios prácticos.
Este fue un resumen del documento “FVC: un nuevo marco hacia la compresión profunda de video en el espacio de funciones”. Es un estudio interesante para aquellos que trabajan en el dominio del video. Puede encontrar enlaces relativos a continuación si desea obtener más información sobre FVC.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘FVC: un nuevo marco hacia la compresión profunda de video en el espacio de funciones‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools