Estás leyendo la publicación: Conozca Dreamix: un nuevo marco de inteligencia artificial (IA) para la edición de video guiada por texto
La conversión de texto a imagen es una tarea desafiante en la visión artificial y el procesamiento del lenguaje natural. Generar contenido visual de alta calidad a partir de descripciones textuales requiere capturar la intrincada relación entre el lenguaje y la información visual. Si el texto a imagen ya es un desafío, la síntesis de texto a video extiende la complejidad de la generación de contenido 2D a 3D, dadas las dependencias temporales entre los cuadros de video.
Un enfoque clásico cuando se trata de un contenido tan complejo es explotar los modelos de difusión. Los modelos de difusión han surgido como una técnica poderosa para abordar este problema, aprovechando el poder de las redes neuronales profundas para generar imágenes fotorrealistas que se alinean con una descripción textual dada o cuadros de video con consistencia temporal.
Los modelos de difusión funcionan refinando iterativamente el contenido generado a través de una secuencia de pasos de difusión, donde el modelo aprende a capturar las dependencias complejas entre los dominios textual y visual. Estos modelos han mostrado resultados impresionantes en los últimos años, logrando un rendimiento de síntesis de texto a imagen y de texto a video de última generación.
Aunque estos modelos ofrecen nuevos procesos creativos, en su mayoría se limitan a crear imágenes novedosas en lugar de editar las existentes. Se han desarrollado algunos enfoques recientes para llenar este vacío, centrándose en preservar características particulares de la imagen, como rasgos faciales, fondo o primer plano, mientras se editan otras.
Para la edición de video, la situación cambia. Hasta la fecha, solo se han empleado unos pocos modelos para esta tarea, y con escasos resultados. La bondad de una técnica se puede describir por alineación, fidelidad y calidad. La alineación se refiere al grado de consistencia entre el mensaje de texto de entrada y el video de resultado. La fidelidad da cuenta del grado de conservación del contenido de entrada original (o al menos de esa parte a la que no se hace referencia en el mensaje de texto). La calidad representa la definición de la imagen, como la presencia de detalles de grano fino.
La parte más desafiante de este tipo de edición de video es mantener la consistencia temporal entre fotogramas. Dado que la aplicación de métodos de edición a nivel de imagen (cuadro por cuadro) no puede garantizar tal consistencia, se necesitan diferentes soluciones.
Un enfoque interesante para abordar la tarea de edición de video proviene de Dreamix, un marco novedoso de inteligencia artificial (IA) de texto a imagen basado en modelos de difusión.
La descripción general de Dreamix se muestra a continuación.
El núcleo de este método es habilitar un modelo de difusión de video condicionado por texto (VDM) para mantener una alta fidelidad al video de entrada dado. ¿Pero cómo?
Primero, en lugar de seguir el enfoque clásico y alimentar ruido puro como inicialización del modelo, los autores usan una versión degradada del video original. Esta versión tiene poca información espaciotemporal y se obtiene mediante reducción de escala y adición de ruido.
En segundo lugar, el modelo de generación se afina en el video original para mejorar aún más la fidelidad.
El ajuste fino garantiza que el modelo de aprendizaje pueda comprender los detalles más finos de un video de alta resolución. Sin embargo, suponga que el modelo simplemente se ajusta con precisión en el video de entrada. En ese caso, es posible que no pueda editar el movimiento, ya que preferirá el movimiento original en lugar de seguir las indicaciones de texto.
Para abordar este problema, los autores sugieren un nuevo enfoque llamado ajuste fino mixto. En el ajuste fino mixto, los modelos de difusión de video (VDM) se ajustan en cuadros de video de entrada individuales sin tener en cuenta el orden temporal. Esto se logra enmascarando la atención temporal. El ajuste fino combinado conduce a una mejora significativa en la calidad de las ediciones de movimiento.
La comparación de los resultados entre Dreamix y los enfoques más avanzados se muestra a continuación.
Este fue el resumen de Dreamix, un novedoso framework de IA para la edición de video guiada por texto.
Si está interesado o desea obtener más información sobre este marco, puede encontrar un enlace al documento y la página del proyecto.