Estás leyendo la publicación: Conozca CoMoSpeech: un método basado en un modelo de consistencia para la síntesis de voz que logra una generación de audio rápida y de alta calidad
Con la creciente interacción hombre-máquina y las aplicaciones de entretenimiento, las tareas de texto a voz (TTS) y síntesis de voz cantada (SVS) se han incluido ampliamente en la síntesis de voz, que se esfuerza por generar audio realista de personas. Los métodos basados en redes neuronales profundas (DNN) se han apoderado en gran medida del campo de la síntesis de voz. Por lo general, se utiliza una canalización de dos etapas, con el modelo acústico que convierte el texto y otra información de control en características acústicas (como espectrogramas mel) antes de que el codificador de voz convierta aún más las características acústicas en formas de onda audibles.
La tubería de dos etapas ha tenido éxito porque actúa como un “relé” para resolver el problema de la explosión de dimensiones de traducir textos cortos a audios largos con una alta frecuencia de muestreo. Los marcos describen las características acústicas. La característica acústica que produce el modelo acústico, a menudo un espectrograma de mel, afecta significativamente la calidad de las conversaciones sintetizadas. Las redes neuronales convolucionales (CNN) y los transformadores se emplean con frecuencia en métodos estándar de la industria como Tacotron, DurIAN y FastSpeech para pronosticar el espectrograma de mel del componente gobernante. La capacidad de los enfoques de modelos de difusión para generar muestras de alta calidad ha ganado mucho interés. Los dos procesos que componen un modelo de difusión, también conocido como modelo basado en puntaje, son un proceso de difusión que gradualmente perturba los datos en ruido y un proceso inverso que transforma lentamente el ruido nuevamente en datos. La necesidad del modelo de difusión de varias iteraciones para la generación es un defecto grave. Se han sugerido varias técnicas basadas en el modelo de difusión para el modelado acústico en la síntesis de voz. El problema de la velocidad de generación lenta todavía existe en la mayoría de estos trabajos.
Grad-TTS desarrolló una ecuación diferencial estocástica (SDE) para resolver la SDE inversa, que se utiliza para resolver la transformación de espectrograma de ruido a mel. A pesar de producir una gran calidad de audio, la velocidad de inferencia es lenta ya que el método inverso requiere muchas iteraciones (10–1000). La destilación progresiva se agregó a Prodiff cuando se estaba desarrollando más para minimizar los procesos de muestra. DiffGAN-TTS usó un modelo entrenado adversarialmente en Liu et al. para representar aproximadamente la función de eliminación de ruido para una síntesis de voz eficaz. El ResGrad en Chen et al. estima el residual de predicción de FastSpeech2 preentrenado y la realidad del terreno utilizando el modelo de difusión.
De la descripción anterior, está claro que la síntesis de voz tiene tres objetivos:
• Excelente calidad de audio: El modelo generativo debe capturar fielmente las sutilezas de la voz hablante que se suman a la expresividad y naturalidad del audio sintetizado. Las investigaciones recientes se han centrado en las voces con cambios más intrincados en el tono, el tiempo y la emoción, además de la voz distintiva del habla. Diffsinger, por ejemplo, demuestra cómo un modelo de difusión bien diseñado puede proporcionar una voz de canto sintetizada de buena calidad después de 100 iteraciones. Además, es importante evitar artefactos y distorsiones en el audio creado.
• inferencia rápida: La síntesis de audio rápida es necesaria para las aplicaciones en tiempo real, incluidos los sistemas de comunicación, voz interactiva y música. Simplemente ser más rápido que el tiempo real para la síntesis de voz es insuficiente cuando se hace tiempo para otros algoritmos en un sistema integrado.
• Más allá de hablar: Se necesita un modelado de voz más intrincado, como la voz cantada, en lugar de la voz hablada distintiva en términos de tono, emoción, ritmo, control de la respiración y timbre.
Aunque se han realizado numerosos intentos, el problema de compensación entre la calidad del audio sintetizado, la capacidad del modelo y la velocidad de inferencia persiste en TTS. Es más evidente en SVS debido al mecanismo del proceso de difusión de eliminación de ruido al realizar el muestreo. Los enfoques existentes a menudo apuntan a mitigar en lugar de resolver por completo el problema de la inferencia lenta. A pesar de esto, deben ser más rápidos que los enfoques tradicionales sin utilizar modelos de difusión como FastSpeech2.
El modelo de consistencia se ha desarrollado recientemente, produciendo imágenes de alta calidad con solo un paso de muestreo expresando la ecuación diferencial estocástica (SDE), describiendo el proceso de muestreo como una ecuación diferencial ordinaria (ODE) y reforzando aún más la propiedad de consistencia del modelo. en la trayectoria ODE. A pesar de este logro en la síntesis de imágenes, actualmente se necesita un modelo de síntesis de voz conocido basado en el modelo de consistencia. Esto sugiere que es posible desarrollar una técnica de síntesis de voz consistente basada en un modelo que combine una síntesis de alta calidad con una velocidad de inferencia rápida.
En este estudio, investigadores de la Universidad Bautista de Hong Kong, la Universidad de Ciencia y Tecnología de Hong Kong, Microsoft Research Asia y el Instituto de Ciencia e Innovación de Hong Kong ofrecen CoMoSpeech, un enfoque de síntesis de voz rápido y de alta calidad basado en modelos de consistencia. Su CoMoSpeech se deriva de un instructor que ya ha recibido capacitación. Más específicamente, su modelo de maestro usa el SDE para aprender la función de puntuación coincidente y traducir sin problemas el espectrograma de mel a la distribución de ruido gaussiana. Después de la capacitación, construyen la función de eliminación de ruido del maestro utilizando los solucionadores de ODE numéricos asociados, que luego se utilizan para una mayor destilación de consistencia. Su CoMoSpeech con características consistentes se produce por destilación. En última instancia, su CoMoSpeech puede generar audio de alta calidad con un solo paso de muestra.
Los hallazgos de sus ensayos TTS y SVS demuestran que CoMoSpeech puede producir monólogos con un solo paso de muestra, que es más de 150 veces más rápido que en tiempo real. El estudio de la calidad de audio también revela que CoMoSpeech proporciona una calidad de audio superior o equivalente a otras técnicas de modelo de difusión que necesitan decenas o cientos de iteraciones. La síntesis de voz basada en el modelo de difusión ahora es practicable por primera vez. En el sitio web de su proyecto se dan varios ejemplos de audio.