Estás leyendo la publicación: OpenAI lanza Whisper: un nuevo modelo de aprendizaje automático de código abierto para el reconocimiento de voz automático multilingüe
Usando solo un transformador listo para usar entrenado en 680,000 horas de datos de audio multilingües con supervisión débil, Whisper de OpenAI puede acercarse a la robustez y precisión de nivel humano en ASR, todo sin la necesidad de un ajuste fino. Lo mejor de todo es que el modelo es de código abierto, con varios tamaños de peso disponibles para el público.
El modelo
Como se mencionó anteriormente, el modelo es un transformador codificador-decodificador estándar. Los archivos de audio de varias tareas de reconocimiento de voz se convierten primero a espectrogramas log-mel, que son representaciones de audio en el dominio de tiempo-frecuencia-amplitud, con frecuencias representadas en Mels, una escala logarítmica destinada a imitar cómo funciona la percepción del tono en los humanos. A continuación, se realiza la reducción de la dimensionalidad en los espectrogramas utilizando convolución unidimensional con GELU.
GELU (¿Qué?)
Las entradas siempre se normalizan a la media 0 y la varianza de la unidad para que las diferentes características se escalen de manera uniforme, lo que hace que el panorama de pérdidas sea más uniforme. Mientras que la deserción de ReLU se aplica ∀x<0, GELU realiza la deserción estocásticamente, lo que aumenta la probabilidad de que la entrada se elimine a medida que x disminuye.
Después de realizar la codificación posicional, la entrada se alimenta a la pila del codificador del transformador y la representación resultante se usa para condicionar el decodificador autorregresivo. Los tokens únicos se utilizan al comienzo del proceso de decodificación para indicar el inicio y el final de una tarea, el tipo de tarea, si el habla está presente o no en la entrada, la información de la marca de tiempo y más.
Como la decodificación voraz se usa para muestrear los resultados, los autores usan varias heurísticas para evitar la repetición de bucles, como comenzar desde la temperatura 0 y aumentarla gradualmente si la entropía de los tokens generados es demasiado baja (alguien debería informarles sobre el muestreo típico).
Los datos
Dado que los datos de traducción y reconocimiento de voz supervisados y validados por humanos son escasos, los autores decidieron buscar cualquier dato ASR que pudieran encontrar, centrándose en las técnicas de preprocesamiento de datos. Estos incluían heurística para identificar y eliminar traducciones generadas por máquinas, como la falta de puntuación o el uso de mayúsculas. Los investigadores también utilizaron un detector de idioma para garantizar una coincidencia entre la transcripción y el idioma del audio. Entrenaron un modelo inicial sobre los datos para identificar e inspeccionar manualmente puntos de datos con una alta tasa de error para excluir posibles valores atípicos. Los datos totalizaron 680.000 horas, dos órdenes más grandes que los conjuntos de datos ASR supervisados anteriores. Este conjunto de datos no se hizo público a pesar de publicar los pesos y el código del modelo.
Evaluación
Los autores están en desacuerdo con la métrica de la tasa de error de palabra (WER), que penaliza cualquier diferencia entre la salida del modelo y la realidad del terreno. Algunas de estas diferencias pueden ser solo estilísticas: lo que nos importa son los errores semánticos. Los autores desarrollaron varios diccionarios para estandarizar la elección de palabras y así disminuir el WER.
Otra métrica utilizada para evaluar el modelo es la robustez efectiva. La robustez mide qué tan bien se generaliza el modelo a conjuntos de datos fuera de distribución: la robustez efectiva es la robustez relativa a otro modelo. Cuando se compara Whisper con wav2vec, encontramos que Whisper tiene una robustez efectiva más alta, cometiendo un 55 % menos de errores en promedio que wav2vec.
Los autores plantean la hipótesis de que el WER se reduce a la mitad por cada aumento de 16x en los datos de entrenamiento en términos de leyes de escala. Si esto fuera cierto, deberíamos esperar alcanzar un rendimiento sobrehumano para ASR en la próxima generación de modelos. Sin embargo, esta tendencia no es válida para todos los idiomas: los idiomas no indoeuropeos suelen tener peores resultados, y el galés (CY) también es un caso atípico, a pesar de que supuestamente se entrenó con 9000 horas de datos de traducción.
En cuanto a los parámetros del modelo de escala, vemos rendimientos decrecientes a medida que WER se acerca a los niveles de SR humanos.
Conclusión
Whisper de OpenAI es un transformador listo para usar que aprovecha datos masivos y heurísticas de decodificación para alcanzar el reconocimiento y la traducción del habla a nivel humano. Queda por ver si los futuros modelos ASR superarán el rendimiento humano en los próximos años.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Reconocimiento de voz robusto a través de una supervisión débil a gran escala‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools