Estás leyendo la publicación: Conozca a Generative Disco: un sistema de inteligencia artificial generativa que facilita la generación de texto a video para la visualización de música utilizando un modelo de lenguaje grande y un modelo de texto a imagen
Las imágenes juegan un papel crucial en la forma en que escuchan la música porque pueden acentuar los sentimientos y las ideas que expresa. Es costumbre en el negocio de la música lanzar música acompañada de visualizadores, videos de letras y videos musicales. Las presentaciones en el escenario y el jockey visual, la modificación en tiempo real y la elección de imágenes para que coincidan con la música, son otras formas en que los conciertos y festivales enfatizan la visualización de la música. Todos los lugares donde se puede tocar música ahora tienen alguna visualización de música, desde salas de conciertos hasta pantallas de computadora. Los videos musicales son un ejemplo de un tipo de visualización musical que puede ser tan apreciado por una producción cultural como la canción, ya que las imágenes hacen que la música sea más inmersiva.
Debido a que combinar y combinar gráficos con música requiere mucho tiempo y recursos, la visualización de música es difícil de desarrollar. Por ejemplo, se deben obtener, filmar, alinear y recortar secuencias de videos musicales. Cada paso del proceso de diseño y edición de un video musical implica tomar decisiones creativas con respecto al color, los ángulos, las transiciones, los temas y los símbolos. Coordinar estas decisiones creativas con los componentes intrincadamente complejos de la música es un desafío. Los editores de video deben aprender a combinar canciones, melodías y ritmos con imágenes en movimiento en intersecciones estratégicas.
Los usuarios deben mirar mucho material mientras hacen videos, pero los modelos generativos de IA pueden producir muchos contenidos hermosos. En este artículo, proporcionan dos patrones de diseño que pueden usarse para organizar la creación de películas y crear historias visuales atractivas dentro de videos generados por IA: una transición, el patrón de diseño inicial, ayuda a representar un cambio en una toma producida. Un agarre, el segundo patrón de diseño, promueve la continuidad visual y el enfoque a lo largo de una toma. Los usuarios pueden usar estas dos estrategias de diseño para reducir los artefactos de movimiento y mejorar la capacidad de visualización de las películas generadas por IA. Investigadores de la Universidad de Columbia y Hugging Face presentan Generative Disco, una tecnología de texto a video para la visualización de música interactiva. Fue uno de los primeros en investigar problemas con la interacción humano-computadora en relación con los sistemas de texto a video y usar IA generativa para respaldar la visualización de música.
Los intervalos sirven como bloque de construcción fundamental para producir los breves clips de visualización de música que se pueden crear utilizando su metodología. Los usuarios primero deciden qué intervalo musical quieren visualizar. Luego generan avisos de inicio y finalización para parametrizar la visualización para ese período de tiempo. El sistema ofrece un espacio de lluvia de ideas para ayudar a los usuarios a identificar indicaciones con recomendaciones tomadas de un modelo de lenguaje grande (GPT-4) y conocimiento del dominio de edición de video para permitirles explorar varias formas en que un intervalo puede comenzar y terminar. Los usuarios pueden triangular entre letras, gráficos y música utilizando las funciones de lluvia de ideas del sistema, que incluyen la comprensión visual de GPT-4 y la otra fuente de información del dominio. Los usuarios seleccionan dos generaciones para que sirvan como imágenes de inicio y final del intervalo, y luego se produce una secuencia de imágenes deformando estas dos fotos al ritmo de la música. Realizaron una investigación de usuarios (n=12) con doce profesionales del video y la música para evaluar el flujo de trabajo de Generative Disco. Su encuesta reveló que los usuarios consideraban que el sistema era extremadamente expresivo, agradable y fácil de explorar. Los expertos en video podían interactuar íntimamente con muchas partes de la música mientras producían imágenes que encontraban prácticas y atractivas.
Estas son las contribuciones que hicieron:
• Un marco de producción de video que utiliza intervalos como bloque de construcción básico. Con el tiempo y las pausas que mejoran el énfasis visual, el video producido puede comunicar significado a través de cambios de color, tema, estilo y tiempo.
• Técnica para lluvia de ideas multimodal e ideación rápida que vincula letras, sonidos y objetivos visuales dentro de indicaciones utilizando GPT-4 y conocimiento del dominio.
• Generative Disco, un sistema generativo de IA que utiliza un canal de un gran modelo de lenguaje y un modelo de texto a imagen para ayudar a la producción de texto a video para la visualización de música.
• Una investigación demostró cómo los expertos podrían usar Generative Disco para priorizar la expresión sobre la ejecución. En su conversación, amplían los casos de aplicación de su método de texto a video que va más allá de la visualización de música y hablan sobre cómo la IA generativa ya está transformando el trabajo creativo.