Google AI presenta Frame Interpolation for Large Motion (FILM): una nueva arquitectura de red neuronal para crear videos en cámara lenta de alta calidad a partir de fotos casi duplicadas

Estás leyendo la publicación: Google AI presenta Frame Interpolation for Large Motion (FILM): una nueva arquitectura de red neuronal para crear videos en cámara lenta de alta calidad a partir de fotos casi duplicadas

Muchos estudios se centran cada vez más en la interpolación de fotogramas, que sintetiza imágenes intermedias entre un par de fotogramas de entrada. La frecuencia de actualización se puede aumentar o se pueden crear videos en cámara lenta utilizando muestreo ascendente temporal.

Ha aparecido una nueva aplicación recientemente. Debido a la facilidad con la que se utiliza la fotografía digital, las personas suelen realizar varias tomas en rápida sucesión para encontrar la mejor, ya que ahora pueden producir varias imágenes en cuestión de segundos. La interpolación entre estos “casi duplicados” revela el movimiento de la escena (y algo de la cámara), lo que con frecuencia ofrece un sentido más atractivo del evento que cualquier fotografía original y presenta un potencial interesante. Sin embargo, los enfoques de interpolación convencionales tienen una barrera significativa cuando se trata de imágenes fijas porque el intervalo de tiempo entre casi duplicados puede ser de un segundo o más, con un movimiento de escena proporcionalmente grande.

Los enfoques recientes han mostrado resultados prometedores para el desafiante problema de la interpolación de cuadros entre cuadros de video consecutivos, que a menudo muestran un movimiento menor. Sin embargo, la interpolación para el movimiento de una gran escena, que generalmente ocurre casi por duplicado, ha recibido poca atención. Aunque el estudio trató de resolver el problema de los grandes movimientos entrenando en un conjunto de datos de movimientos muy extremos, su rendimiento en las pruebas de movimientos pequeños fue decepcionante.

🔥 Recomendado:  Cómo ganar dinero en la escuela de posgrado: 23 formas épicas

Un estudio reciente de Google y la Universidad de Washington propone el algoritmo de interpolación de fotogramas para grandes movimientos (FILM) para interpolar fotogramas de gran movimiento, centrándose en la interpolación de imágenes casi duplicadas. FILM es un modelo sencillo, unificado y de una etapa que se puede entrenar solo con marcos estándar y no requiere el uso de flujo óptico o redes previas de profundidad o sus datos de entrenamiento previo limitados. Comprende un estimador de movimiento bidireccional “agnóstico de escala” que puede aprender de fotogramas de movimiento normal pero aún así generalizar bien a fotogramas de alto movimiento y una “pirámide de características” que distribuye la importancia entre escalas. Modifican un extractor de características multiescala de pesos compartidos y presentan un estimador de movimiento bidireccional insensible a la escala que puede manejar de manera efectiva movimientos pequeños y grandes utilizando solo marcos de entrenamiento estándar.

Basado en la suposición de que el movimiento de grano fino debe ser análogo al movimiento de grano grueso, el método aumenta el número de píxeles (ya que la escala más fina tiene una resolución más alta) accesible para la supervisión de movimiento grande.

Los investigadores notaron que los fotogramas interpolados con frecuencia se ven inestables cuando los algoritmos de última generación funcionan bien en los puntos de referencia, especialmente en regiones grandes no ocluidas que resultan de los principales movimientos de la cámara. Para abordar este problema, optimizan sus modelos utilizando la pérdida de matriz de Gram, que es consistente con la autocorrelación de las características VGG de alto nivel y produce mejoras sorprendentes en la nitidez y el realismo de la imagen.

🔥 Recomendado:  Las 100 mejores cuentas de fotografía de Pinterest para seguir

Además de depender de datos limitados para el entrenamiento previo del flujo óptico adicional, la profundidad u otras redes anteriores, la complejidad del entrenamiento de las técnicas modernas de interpolación es una limitación importante. La falta de información es especialmente problemática para cambios importantes. Este estudio también contribuye con una arquitectura uniforme para la interpolación de tramas que se puede entrenar usando solo tripletas de tramas estándar, lo que simplifica enormemente el procedimiento de entrenamiento.

Amplios resultados experimentales demuestran que FILM ofrece videos de alta calidad, temporalmente fluidos, superando los enfoques de la competencia para movimientos grandes y pequeños.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘PELÍCULA: interpolación de cuadros para movimiento grande‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, proyecto, enlace github y artículo de referencia.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools