▷ Conozca AUDIT: un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente

Estás leyendo la publicación: Conozca AUDIT: un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente

Los modelos de difusión avanzan rápidamente y facilitan la vida. Desde el procesamiento del lenguaje natural y la comprensión del lenguaje natural hasta la visión por computadora, los modelos de difusión han mostrado resultados prometedores en casi todos los dominios. Estos modelos son un desarrollo reciente en IA generativa y son un tipo de modelo generativo profundo que se puede usar para generar muestras realistas a partir de distribuciones complejas.

Los investigadores han introducido recientemente un nuevo modelo de difusión que puede editar fácilmente clips de audio. Llamado AUDIT, este modelo de difusión latente es un modelo de edición de audio guiado por instrucciones. La edición de audio implica principalmente cambiar una señal de audio de entrada para producir una salida de audio editada. Esto incluye tareas como agregar efectos de sonido de fondo, reemplazar música de fondo, reparar audio incompleto o mejorar audio de baja calidad. AUDIT toma tanto el audio de entrada como las instrucciones humanas como condiciones y genera la salida de audio editada.

Los investigadores han utilizado datos de tripletes para entrenar el modelo de difusión de edición de audio de manera supervisada. Los datos de triplete utilizados son instrucción, audio de entrada y audio de salida. El audio de entrada se ha utilizado directamente como entrada condicional para garantizar la coherencia en los segmentos de audio sin editar. Las instrucciones de edición también se han utilizado directamente como guía de texto para hacer que el modelo sea más flexible y adecuado para escenarios del mundo real.

El equipo de investigadores detrás de AUDIT ha resumido sus contribuciones de la siguiente manera:

AUDIT es el primer desarrollo en el que se ha entrenado un modelo de difusión para la edición de audio, que toma como condición las instrucciones de texto humano.
Se ha diseñado un framework de construcción de datos para entrenar AUDIT de forma supervisada.
AUDIT es capaz de maximizar la preservación de segmentos de audio que no requieren edición.
AUDIT funciona bien con instrucciones simples como guía de texto sin necesidad de una descripción detallada del objetivo de edición.
AUDIT ha logrado resultados notables tanto en métricas objetivas como subjetivas para una serie de tareas de edición de audio.

El equipo ha compartido algunos ejemplos en los que AUDIT se ha desempeñado muy bien y ha editado audios con precisión. Estos incluyen agregar el sonido de las bocinas de los automóviles en el audio, reemplazar el sonido de la risa con el sonido de una trompeta, eliminar el sonido de una mujer hablando del audio de alguien que silba, etc. AUDIT se desempeñó extremadamente bien en tareas de edición de audio y mostró excelentes resultados en métricas objetivas y subjetivas, incluidas las siguientes tareas.

Adición de un sonido a un clip de audio.
Descartar o eliminar un sonido de un clip de audio
Sustituir un evento sonoro en el audio de entrada por otro sonido.
Repintado de audio: completar un segmento enmascarado de audio según el contexto o el mensaje de texto proporcionado.
Tarea de superresolución con la que el audio de entrada de muestreo bajo se puede convertir en audio de salida de muestreo alto.

En conclusión, AUDIT parece un enfoque prometedor para el futuro que puede simplificar la edición de audio de manera flexible y efectiva siguiendo instrucciones humanas.

Conozca AUDIT: un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente

Otros temas interesantes: