Google AI Research propone un método de compresión de video basado en aprendizaje profundo que utiliza GAN para la síntesis y propagación de detalles

Estás leyendo la publicación: Google AI Research propone un método de compresión de video basado en aprendizaje profundo que utiliza GAN para la síntesis y propagación de detalles

El desarrollo de las tecnologías de visualización y el aumento incesante de la popularidad del contenido de video han dado como resultado una demanda significativa de compresión de video para ahorrar en costos de almacenamiento y ancho de banda.

La compresión se realiza explotando la similitud entre los cuadros de video. Esto es posible porque la mayor parte del contenido es casi idéntico entre cuadros de video, ya que un video típico contiene 30 cuadros por segundo. El algoritmo de compresión intenta encontrar la información residual entre los cuadros de video.

La compresión de video se trata de encontrar el punto óptimo para el equilibrio entre la calidad visual y el tamaño del video. Los videos deben servirse a millones de clientes, y no todos ellos pueden tener la capacidad de red para obtener la más alta calidad visual del video.

Aunque los métodos de compresión de video existentes pueden ahorrar un ancho de banda significativo, su avance aún se basa en la heurística tradicional. El último códec de video de última generación, Versatile Video Coding (VVC), aún comparte componentes con códecs de video de hace dos décadas.

El problema de la compresión de video también pertenece al grupo de problemas que se están abordando con las redes neuronales. El avance en la compresión de video neuronal ganó impulso recientemente y lograron obtener un rendimiento a la par con los códecs de video tradicionales.

🔥 Recomendado:  13 formas legítimas de ganar dinero para perder peso en 2023

A pesar de lograr un rendimiento de compresión impresionante, los métodos de compresión de video neural sufren al producir salidas “realistas”. Pueden generar el video de salida cerca de la entrada, pero pierden el realismo. Por ejemplo, si revisa el cabello de las personas comprimido por un modelo de compresión de video neuronal, puede ver que se ven un poco apagados.

El objetivo de agregar la restricción de realismo para las redes neuronales es garantizar que la salida sea indistinguible de las imágenes reales mientras permanece cerca del video de entrada. El principal desafío es garantizar que la red pueda generalizar bien el contenido que no se ve.

Este es el problema que este trabajo trata de resolver. Construyen cuidadosamente una técnica de compresión de video neuronal generativa que sobresale en síntesis y preservación de detalles. Esto se logra mediante el uso de una red antagónica generativa (GAN) y otorgando la máxima importancia a la función de pérdida de GAN.

En la compresión de video, los fotogramas específicos se seleccionan como fotogramas clave (I-Frames) que se utilizan como base para reconstruir los próximos fotogramas. A estos cuadros se les asignan tasas de bits más altas; por lo tanto, tienen mejores detalles. Esto también es válido para el método propuesto. El método propuesto sintetiza los cuadros dependientes (P-Frames) en función del I-frame disponible. Utiliza una estrategia de tres pasos.

Primero, sintetiza los detalles esenciales dentro del I-frame, que se utilizará como base para los próximos fotogramas. Esto se hace mediante el uso de una combinación de componentes de red neuronal convolucional (CNN) y GAN. El discriminador en el componente GAN es responsable de garantizar los detalles del nivel de I-frame.

🔥 Recomendado:  Las mejores herramientas de comercio electrónico para un excelente servicio al cliente

En segundo lugar, los detalles sintetizados se propagan donde se necesitan. Se utiliza un poderoso método de flujo óptico (UFlow) para predecir el movimiento entre fotogramas. El componente de trama P tiene dos partes de autocodificador, una para predecir el flujo óptico y otra para la información residual. Estas dos partes funcionan juntas para propagar los detalles del paso anterior con la mayor nitidez posible.

Finalmente, se usa otro codificador automático para determinar cuándo sintetizar nuevos detalles del I-frame. Dado que puede aparecer contenido nuevo en fotogramas P, los detalles existentes pueden volverse irrelevantes y, en ese caso, propagarlos distorsionaría la calidad visual. Entonces, siempre que suceda, la red debe sintetizar nuevos detalles. El componente de autocodificador residual logra esto.

Los autores afirman que los dos componentes son cruciales en este método. El primer componente es el condicionamiento del generador residual sobre una latente obtenida de la reconstrucción anterior alabeada. El segundo componente aprovecha el flujo preciso de una red de flujo óptico. El método propuesto se evalúa objetiva y subjetivamente y, en ambos casos, superó a los métodos de compresión de video neuronal existentes.

Este fue un resumen del artículo “Compresión de video neuronal usando GAN para síntesis y propagación de detalles” del grupo de investigación de Google. Puede consultar los enlaces a continuación si está interesado en conocer más detalles.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Compresión de video neuronal usando GAN para síntesis y propagación de detalles‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel.

🔥 Recomendado:  Netflix está probando parches coleccionables para niños

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools