Investigadores de CMU proponen STF (Sketching the Future): un nuevo enfoque de inteligencia artificial que combina la generación de texto a video Zero-Shot con ControlNet para mejorar la salida de estos…

Estás leyendo la publicación: Investigadores de CMU proponen STF (Sketching the Future): un nuevo enfoque de inteligencia artificial que combina la generación de texto a video Zero-Shot con ControlNet para mejorar la salida de estos…

La popularidad de los métodos basados ​​en redes neuronales para crear nuevo material de video ha aumentado debido al aumento explosivo del contenido de video en Internet. Sin embargo, la necesidad de conjuntos de datos disponibles públicamente con datos de video etiquetados dificulta el entrenamiento de modelos de texto a video. Además, la naturaleza de las indicaciones dificulta la producción de videos utilizando los modelos de texto a video existentes. Ofrecen una solución innovadora a estos problemas que combina las ventajas de la producción de texto a video sin tomas con el fuerte control de ControlNet. Su enfoque se basa en la arquitectura Text-to-Video Zero, que utiliza Stable Diffusion y otras técnicas de síntesis de texto a imagen para generar videos a un costo mínimo.

Los principales cambios que realizan son la adición de dinámicas de movimiento a los códigos latentes de los fotogramas producidos y la reprogramación de la autoatención a nivel de fotograma mediante un nuevo mecanismo de atención entre fotogramas. Estos ajustes garantizan la uniformidad de la identidad, el contexto y la apariencia del objeto de primer plano en toda la escena y el fondo. Incluyen el marco ControlNet para mejorar el control sobre el material de video creado. Los mapas de bordes, los mapas de segmentación y los puntos clave son solo algunas de las diferentes condiciones de entrada que puede aceptar ControlNet. También se puede entrenar de extremo a extremo en un pequeño conjunto de datos.

🔥 Recomendado:  El nuevo altavoz de McIntosh de 6.000 dólares es una explosión del pasado

Textto-Video Zero y ControlNet producen un marco poderoso y adaptable para crear y administrar contenido de video con el mínimo consumo de recursos. Su enfoque tiene una salida de video que sigue el flujo de múltiples cuadros dibujados como entrada y múltiples cuadros esbozados como salida. Antes de ejecutar Text-to-Video Zero, interpolan cuadros entre los dibujos ingresados ​​y usan el video resultante de cuadros interpolados como método de control. Su método se puede utilizar para varias tareas, incluida la producción de video condicional y de contenido específico y Video Instruct-Pix2Pix, edición de video guiada por instrucciones y síntesis de texto a video. A pesar de la necesidad de recibir capacitación sobre datos de video adicionales, los experimentos demuestran que su tecnología puede producir una salida de video sorprendentemente consistente y de alta calidad con poca sobrecarga.

Investigadores de la Universidad Carnegie Mellon ofrecen un marco sólido y adaptable para crear y administrar contenido de video utilizando la menor cantidad de recursos al combinar los beneficios de Textto-Video Zero y ControlNet. Este trabajo crea nuevas oportunidades para la creación de videos efectiva y eficiente que puede servir para una variedad de campos de aplicación. Una amplia gama de negocios y aplicaciones se verá significativamente afectada por el desarrollo de STF (Sketching the Future). STF tiene el potencial de alterar drásticamente la forma en que producen y consumen contenido de video como un método revolucionario que combina la producción de texto a video sin tomas con ControlNet.

STF tiene impactos tanto positivos como negativos. Puede ser útil para profesionales creativos en cine, animación y diseño gráfico. Su método puede acelerar el proceso creativo y reducir el tiempo y el esfuerzo necesarios para producir contenido de video de alta calidad al permitir el desarrollo de contenido de video a partir de cuadros dibujados e instrucciones escritas. Puede resultar ventajoso disponer de material de vídeo personalizado de forma rápida y eficaz para las iniciativas de publicidad y marketing. STF puede ayudar a las empresas a desarrollar materiales promocionales interesantes y enfocados que los ayudarán a conectarse y llegar mejor a sus clientes objetivo. STF se puede utilizar para crear recursos educativos que coincidan con las necesidades de formación o los objetivos de aprendizaje. Su método puede conducir a experiencias educativas más eficientes e interesantes al producir material de video que se alinea con los resultados de aprendizaje previstos. Accesibilidad: STF puede aumentar la accesibilidad del material de video para personas con discapacidades. Su método puede ayudar a desarrollar material de video que tenga subtítulos u otras ayudas visuales, haciendo que la información y el entretenimiento sean más inclusivos y accesibles a un público más amplio.

🔥 Recomendado:  Actualización de noticias de SEO de enero de 2023: ¿el nuevo Chrome 80 está bloqueando las notificaciones automáticas?

Existen preocupaciones sobre la posibilidad de información errónea y videos falsos profundos debido a la capacidad de producir contenido de video realista utilizando indicaciones de texto y marcos esbozados. Los actores maliciosos pueden usar STF para crear material de video falso pero convincente que se puede usar para transmitir información errónea o influir en la opinión pública. Es posible que el uso de STF con fines de monitoreo o vigilancia viole la privacidad de las personas. Su método puede plantear problemas morales y legales sobre el permiso y la protección de datos se utiliza para crear material de video que presenta personas o ubicaciones reconocibles. Desplazamiento de trabajos: algunos especialistas pueden perder sus trabajos si STF se usa ampliamente en sectores que dependen de la generación manual de material de video. Su método puede acelerar la producción de videos, pero también puede disminuir la demanda de trabajos específicos en los sectores creativos, incluidos los animadores y editores de video. Ofrecen un paquete completo de recursos que incluye una película de demostración, un sitio web del proyecto, un repositorio GitHub de código abierto y un área de juegos de Colab para fomentar un mayor estudio y uso de la estrategia sugerida.