Conozca a Bark: el revolucionario modelo de clonación de voz de IA de texto a voz que suena como usted

Estás leyendo la publicación: Conozca a Bark: el revolucionario modelo de clonación de voz de IA de texto a voz que suena como usted

El nuevo modelo Text2Speech, Bark, se acaba de presentar y tiene restricciones en la clonación de voz y permite indicaciones para garantizar la seguridad del usuario. Sin embargo, los científicos decodificaron las muestras de audio, liberaron las instrucciones de restricciones y las pusieron a disposición en un cuaderno Jupyter accesible. Ahora, usando solo 5-10 segundos de muestras de audio/texto, es posible clonar un archivo de audio completo.

¿Qué es la corteza?

El innovador modelo Bark de texto a audio de Suno se basa en modelos de estilo GPT y puede producir un habla con un sonido natural en varios idiomas, además de música, ruido y efectos de sonido básicos. Suno desarrolló el paradigma Bark de texto a audio utilizando un transformador. Además de hacer un discurso que suene natural en varios idiomas, Bark también puede crear música, ruido ambiental y efectos de sonido básicos. El modelo también puede generar expresiones faciales, como sonreír, fruncir el ceño y sollozar.

Bark utiliza modelos de estilo GPT para crear voz con un ajuste mínimo, lo que da como resultado voces con una amplia gama de expresiones y emociones que reflejan con precisión las sutilezas del tono, el tono y el ritmo. Es una experiencia increíble que te hace cuestionar si estás hablando con personas reales o no. Bark tiene capacidades de generación de voz impresionantemente claras y precisas en varios idiomas, incluidos mandarín, francés, italiano y español.

¿Como funciona?

Bark emplea modelos de estilo GPT para producir audio desde cero, al igual que Vall-E y otros trabajos increíbles en el área. A diferencia de Vall-E, los tokens semánticos de alto nivel incorporan el primer mensaje de texto en lugar de fonemas. Por lo tanto, puede generalizarse a sonidos que no son del habla, como letras de música o efectos de sonido en los datos de entrenamiento, además del habla. A continuación, se crea toda la forma de onda convirtiendo los tokens semánticos en tokens de códec de audio utilizando un segundo modelo.

🔥 Recomendado:  17 trabajos de traductor desde casa y oportunidades para ganar dinero

Características

  • Bark tiene soporte integrado para varios idiomas y puede detectar automáticamente el idioma de entrada del usuario. Si bien el inglés actualmente tiene la calidad más alta, otros idiomas mejorarán en una sola escala. Por lo tanto, Bark usará el acento natural para los idiomas correspondientes cuando se le presente un texto con cambio de código.
  • Bark es capaz de producir cualquier forma de sonido imaginable, incluida la música. No existe una distinción fundamental entre el habla y la música en la mente de Bark. Sin embargo, en ocasiones, Bark creará música basada en palabras.
  • Bark puede replicar todos los matices de una voz humana, incluidos el timbre, el tono, la inflexión y la prosodia. El modelo también funciona para guardar sonidos ambientales, música y otras entradas. Debido al reconocimiento de idioma automatizado de Bark, puede utilizar un indicador de historial alemán con contenido en inglés, por ejemplo. Como resultado, el audio resultante normalmente tiene acento alemán.
  • Los usuarios pueden especificar la voz de un determinado personaje proporcionando indicaciones como NARRADOR, HOMBRE, MUJER, etc. Estas instrucciones solo se siguen a veces, especialmente si se proporciona otra dirección del historial de audio que entra en conflicto con la primera.

Actuación

Se han validado las implementaciones de CPU y GPU (pytorch 2.0+, CUDA 11.7 y CUDA 12.0) de Bark. Bark puede producir audio casi en tiempo real en las GPU actuales usando PyTorch todas las noches. Bark exige ejecutar modelos de transformadores con más de cien millones de parámetros. Los tiempos de inferencia pueden ser de 10 a 100 veces más lentos en GPU más antiguas, la colaboración predeterminada o una CPU