Estás leyendo la publicación: Los investigadores de Deepmind proponen un marco basado en el aprendizaje automático para realizar investigaciones sobre películas de una hora utilizando la misma tecnología que actualmente puede analizar videos de una segunda duración
Las películas en bruto son enormes y deben comprimirse antes de guardarse en un disco; una vez cargados, se descomprimen y se colocan en la memoria del dispositivo antes de usarse como entradas para las redes neuronales. Debido a que las canalizaciones de visión no se escalan mucho más allá de ese punto, la mayoría de las investigaciones de visión por computadora se enfocan en escalas de tiempo cortas de dos a diez segundos a 25 fps (fotogramas por segundo). En este contexto, y con la tecnología actual, el entrenamiento de modelos en películas en bruto de un minuto de duración puede requerir un tiempo o una memoria física excesivos. Cargar dichas películas en GPU o TPU puede volverse poco práctico, ya que requiere descompresión y transmisión, con frecuencia a través de una infraestructura de red con ancho de banda limitado.
Si bien investigaciones anteriores intentaron introducir directamente códecs de compresión de imágenes o videos convencionales (como JPEG o MPEG) en sus modelos, esto a menudo requiere diseños de redes neuronales especializados. En este documento, proponen y analizan la visión comprimida, una canalización de video novedosa, eficiente y escalable que conserva la capacidad de emplear la mayoría de los enfoques de aprendizaje automático y procesamiento de datos de última generación creados para videos. Comienzan entrenando un compresor neuronal para comprimir videos. En segundo lugar, pueden utilizar una red de aumento para alterar el espacio comprimido para realizar aumentos.
En tercer lugar, utilizan arquitecturas comunes de red troncal de video para entrenar y evaluar estos códigos neuronales en tareas típicas de comprensión de video (evitando así la costosa descompresión de los videos). Debido a la naturaleza modular de su sistema, cada componente podría ser reemplazado por una variante más eficiente. El aumento (p. ej., recorte espacial o volteo) es un componente crítico de muchas canalizaciones utilizadas para entrenar modelos de video, pero no es práctico realizarlo directamente en el espacio restringido. Como resultado, se enfrentan a la siguiente dificultad. Pueden abandonar los aumentos, descomprimir los códigos y realizar las modificaciones en el espacio de píxeles. Sin embargo, si eligen lo último, pierden algunos de los beneficios del área comprimida.
Las señales descomprimidas ocupan más espacio; si son lo suficientemente largos, no caben en la memoria GPU o TPU. Además, mientras que un compresor neuronal logra mejores tasas de compresión que JPEG o MPEG, tiene decodificadores masivos que consumen mucho más tiempo y espacio; por lo tanto, la descompresión neuronal es lenta. Para abordar el último obstáculo, sugieren una red de aumento, una pequeña red neuronal que funciona directamente en los códigos latentes cambiándolos en función de alguna operación.
La red de aumento de recorte espacial acepta coordenadas de recorte y un tensor de códigos latentes como entradas. Luego, las latentes ajustadas se producen cerca de las generadas al recortar espacialmente los cuadros de video. Por el contrario, aprenden a realzar el espacio comprimido en lugar de cortar el tensor comprimido. Como resultado, pueden entrenar una red de aumento para ejecutar una gama más amplia de aumentos, como ajustar el brillo o la saturación o incluso completar rotaciones, lo que sería difícil o imposible de lograr mediante la manipulación directa del tensor.
Su estrategia tiene las siguientes ventajas. Para empezar, permite que las estructuras de video comunes se apliquen fácilmente a estos códigos neuronales en lugar de desarrollar diseños personalizados, como en el caso de entrenar redes directamente en representaciones MPEG. En segundo lugar, pueden realizar aumentos ahora sobre los principios latentes sin descomprimirlos primero. Esto reduce el tiempo de entrenamiento y conserva la memoria. Pueden utilizar canalizaciones de video estándar con modificaciones mínimas y obtener un rendimiento competitivo al procesar videos sin formato con estas dos cualidades (valores RGB).
En resumen, muestran que los códigos neuronales se generalizan a una amplia gama de conjuntos de datos y cargas de trabajo (clasificación de video completo y de fotogramas) y superan a JPEG y MPEG en términos de compresión. Entrenan y evalúan una segunda red que produce latentes alteradas basándose en argumentos de transformación para permitir aumentos en el espacio latente. Además, ilustran su sistema en películas considerablemente más largas. Recopilaron una vasta colección de películas centradas en el ego filmadas por visitantes mientras deambulaban por diferentes ciudades1. Estas películas son largas y continuas, con una duración de 30 minutos a diez horas. Algunos ejemplos de sus resultados se pueden encontrar en su sitio web. Quieren mejorarlo en el futuro, por ejemplo, al incluir el código fuente en un futuro próximo.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Visión comprimida para una comprensión de video eficiente‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y proyecto.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools