Estás leyendo la publicación: Conozca AudioGPT: un sistema de inteligencia artificial multimodal que conecta ChatGPT con modelos de base de audio
La comunidad de IA ahora se ve significativamente afectada por los grandes modelos de lenguaje, y la introducción de ChatGPT y GPT-4 ha avanzado en el procesamiento del lenguaje natural. Gracias a la gran cantidad de datos de texto web y la arquitectura robusta, los LLM pueden leer, escribir y conversar como humanos. A pesar de las aplicaciones exitosas en el procesamiento y generación de texto, el éxito de la modalidad de audio (música, sonido y cabeza parlante) es limitado, aunque es muy ventajoso porque: 1) En escenarios del mundo real, los humanos se comunican usando el lenguaje hablado a lo largo del día. conversaciones, y usan asistente hablado para hacer la vida más conveniente; 2) Se requiere el procesamiento de información de modalidad de audio para lograr el éxito de la generación artificial.
El paso crucial para los LLM hacia sistemas de IA más sofisticados es comprender y producir voz, música, sonido y cabezas parlantes. A pesar de las ventajas de la modalidad de audio, aún es difícil capacitar a los LLM que admitan el procesamiento de audio debido a los siguientes problemas: 1) Datos: muy pocas fuentes ofrecen conversaciones habladas del mundo real, y obtener datos de voz etiquetados por humanos es costoso y requiere mucho tiempo. -Operación consumidora. Además, existe la necesidad de datos de voz conversacionales multilingües en comparación con el vasto corpus de datos de texto web, y la cantidad de datos es limitada. 2) Recursos computacionales: La capacitación de LLM multimodales desde cero es computacionalmente exigente y requiere mucho tiempo.
Investigadores de la Universidad de Zhejiang, la Universidad de Pekín, la Universidad Carnegie Mellon y la Universidad Remin de China presentan “AudioGPT” en este trabajo, un sistema creado para ser excelente en la comprensión y producción de la modalidad de audio en diálogos hablados. En particular:
- Utilizan una variedad de modelos básicos de audio para procesar información de audio compleja en lugar de entrenar LLM multimodales desde cero.
- Conectan LLM con interfaces de entrada/salida para conversaciones de voz en lugar de entrenar un modelo de lenguaje hablado.
- Utilizan LLM como la interfaz de propósito general que permite a AudioGPT resolver numerosas tareas de comprensión y generación de audio.
Sería inútil comenzar el entrenamiento desde cero, ya que los modelos básicos de audio ya pueden comprender y producir voz, música, sonido y cabezas parlantes.
Usando interfaces de entrada/salida, ChatGPT y lenguaje hablado, los LLM pueden comunicarse de manera más efectiva al convertir el habla en texto. ChatGPT utiliza el motor de conversación y el administrador de avisos para determinar la intención de un usuario al procesar datos de audio. El proceso de AudioGPT se puede dividir en cuatro partes, como se muestra en la Figura 1:
• Transformación de modalidad: el uso de interfaces de entrada/salida, ChatGPT y los LLM de lenguaje hablado pueden comunicarse de manera más efectiva al convertir el habla en texto.
• Análisis de tareas: ChatGPT utiliza el motor de conversación y el administrador de avisos para determinar la intención de un usuario al procesar datos de audio.
• Asignación de un modelo: ChatGPT asigna los modelos básicos de audio para la comprensión y la generación después de recibir los argumentos estructurados para el control de prosodia, timbre y lenguaje.
• Diseño de respuesta: generar y brindar a los consumidores una respuesta final luego de la ejecución del modelo de base de audio.
Evaluar la efectividad de los LLM multimodales para comprender la intención humana y orquestar la colaboración de varios modelos básicos se está convirtiendo en un tema de investigación cada vez más popular. Los resultados de los experimentos muestran que AudioGPT puede procesar datos de audio complejos en diálogos de múltiples rondas para diferentes aplicaciones de IA, incluida la creación y comprensión de voz, música, sonido y cabezas parlantes. Describen los conceptos de diseño y el procedimiento de evaluación de la consistencia, capacidad y solidez de AudioGPT en este estudio.
Sugieren AudioGPT, que proporciona a ChatGPT modelos básicos de audio para trabajos de audio sofisticados.
Esta es una de las principales contribuciones del documento. Una interfaz de transformación de modalidades está acoplada a ChatGPT como una interfaz de propósito general para permitir la comunicación hablada. Describen los conceptos de diseño y el procedimiento de evaluación para los LLM multimodales y evalúan la coherencia, la capacidad y la solidez de AudioGPT. AudioGPT entiende y produce audio de manera efectiva con numerosas rondas de discusión, lo que permite a las personas producir material de audio rico y variado con una simplicidad nunca antes vista. El código ha sido de código abierto en GitHub.