Estás leyendo la publicación: Investigadores de IA de Corea presentan ‘DailyTalk’, un conjunto de datos de voz conversacional de alta calidad diseñado para texto a voz
Lo más importante para un sistema TTS de texto a voz es guardar y comunicar el contexto del discurso presente. Los modelos TTS actuales tienen restricciones de representación de contexto, ya que perciben cada discurso independientemente de la dirección. La falta de conjuntos de datos de código abierto, incluidos los diálogos hablados, es una de las razones clave por las que la mayoría de los estudios anteriores se centraron en expresiones únicas.
Existen muchos conjuntos de datos TTS populares. Sin embargo, contienen una conversación mínima y comprenden expresiones de estilo de lectura en las que los hablantes graban audio leyendo libros o guiones. Algunos corpus de audio derivados de conversaciones o comportamientos del mundo real son de acceso público, aunque tienen varios inconvenientes, como ruido de fondo o calidad de grabación desigual. Algunas investigaciones recientes ofrecieron modelos TTS conscientes del contexto, aunque utilizaron un conjunto de datos interno que no está disponible para el público.
En este estudio, los investigadores proporcionan DailyTalk, un conjunto de datos de voz de conversación de alta calidad para texto a voz. DailyTalk está diseñado para garantizar una calidad de síntesis de voz general y conversacional: audio con calidad de estudio, grabación simultánea de dos personas y adición de palabras para llenar espacios en el conjunto de datos. Creamos un nuevo conjunto de datos de voz para la síntesis de voz analizando y grabando conversaciones seleccionadas del conjunto de datos de DailyDialog.
Tener un modelo de referencia para TTS conversacional permite a los investigadores examinar la influencia de la información contextual mientras sintetizan el habla. La línea de base consume el historial de Diálogo, que hereda el codificador de se expresa como una agregación de representación de texto de BERT y se basa en la arquitectura FastSpeech2. Usando esta línea de base, el modelo de entrenamiento con el conjunto de datos puede sintetizar el habla natural para expresiones únicas y diálogos completos. Al mismo tiempo, se conservan las valiosas propiedades del conjunto de datos DailyDialog, como su licencia académicamente abierta y numerosas anotaciones de discurso (emoción, acto de habla, tema).
Los siguientes son los aportes significativos de esta investigación:
- El primer conjunto de datos abierto para TTS conversacional está disponible
- Un conjunto de criterios de evaluación para TTS conversacional
En pocas palabras, DailyTalk es un conjunto de datos de texto a voz que puede representar una variedad de propiedades y circunstancias, incluida la conversación. El conjunto de datos y los modelos preentrenados están disponibles públicamente en GitHub.
Este artículo está escrito como un artículo de resumen por el personal de Marktechpost basado en el trabajo de investigación ‘DailyTalk: conjunto de datos de diálogo hablado para conversión de texto a voz conversacional‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools