Estás leyendo la publicación: El modelo de Alexa con parámetros 20B de Amazon establece nuevas marcas en el aprendizaje de pocas tomas junto con una huella de carbono baja durante el entrenamiento (una quinta parte de GPT-3)
Algunos de los desarrollos más significativos en IA se han producido a través del aprendizaje supervisado. Habla de modelos de aprendizaje informático que han sido entrenados utilizando datos anotados. Sin embargo, la confianza en la anotación de datos es cada vez más insostenible a medida que crece el tamaño de los modelos comerciales de IA. Los investigadores de Alexa AI están investigando el nuevo paradigma de inteligencia generalizable, en el que los modelos pueden captar nuevas ideas y transferir conocimientos de un lenguaje o tarea a otro sin mucha intervención humana. Estos modelos permiten a los investigadores crear nuevas funciones y mejorar Alexa en varios idiomas rápidamente. Como parte de este cambio, Amazon ha introducido Alexa Teacher Models (AlexaTM), que son modelos de idiomas multilingües basados en transformadores masivos. Sin orientación humana adicional, AlexaTM puede aprender una tarea en un nuevo idioma con solo unas pocas instancias y retomarla rápidamente.
El equipo publicó recientemente un documento que también se presentó en la Conferencia sobre descubrimiento de conocimientos y minería de datos (KDD). Demostraron cómo los modelos de AlexaTM con diez mil millones y dos mil millones de parámetros podrían superar las técnicas actuales de aprendizaje por transferencia entre idiomas y aumentar la precisión de Alexa en varias regiones. El equipo ha avanzado en su estudio con un modelo generativo de 20 mil millones de parámetros llamado AlexaTM 20B en una publicación complementaria que se lanzará pronto. Los estudios descritos en el estudio, que solo emplean datos disponibles públicamente, demuestran que AlexaTM 20B puede aprender nuevas tareas a partir de una pequeña cantidad de instancias y transferir lo que aprende entre idiomas (aprendizaje de pocos disparos). El trabajo reciente de OpenAI y la creación del modelo GPT-3 sirvieron de inspiración para el esfuerzo del equipo. El modelo AlexaTM 20B se diferencia de otros modelos de grandes lenguajes porque utiliza una arquitectura de codificador-decodificador de secuencia a secuencia (seq2seq).
En una arquitectura de codificador-decodificador, el codificador emplea codificación bidireccional para crear una representación de un texto de entrada. Al mismo tiempo, el decodificador hace uso de esa representación para realizar operaciones como traducir la entrada. El texto de entrada se codifica de izquierda a derecha (unidireccionalmente) en el modelo de solo decodificador. Esto es exitoso para el modelado de lenguaje, donde el objetivo es predecir el siguiente token en una secuencia basada en los anteriores, pero menos para el resumen de texto y la traducción automática, que son las tareas en las que AlexaTM 20B supera a GPT-3. Las capacidades lingüísticas de AlexaTM 20B lo sitúan por encima de GPT-3. Además, tiene una huella de carbono de entrenamiento de solo una quinta parte de GPT-3. Se utilizó una combinación de tareas de eliminación de ruido y modelado de lenguaje causal (CLM) para entrenar a AlexaTM 20B. El modelo debe identificar tramos perdidos y producir la versión completa de la entrada para la operación de eliminación de ruido. El modelo debe continuar el texto de entrada de manera significativa para la tarea CLM. Esto es comparable al entrenamiento de modelos de solo decodificador como GPT-3 y PaLM. Otros modelos de seq2seq como T5 y BART se entrenan de manera similar. AlexaTM 20B puede generalizar en función de la entrada y generar texto nuevo (la tarea CLM) después del entrenamiento en ambas tareas de preentrenamiento. También sobresale en tareas en las que los modelos seq2seq son poderosos, como resumir y traducción automática.
El modelo seq2seq multilingüe más grande con aprendizaje de pocas tomas hasta la fecha es AlexaTM 20B. Amazon también tiene la intención de poner el modelo a disposición del público en general para uso no comercial para apoyar la creación y evaluación de modelos multilingües de grandes idiomas (LLM). El equipo también descubrió que AlexaTM 20B, al igual que los LLM anteriores, tenía la oportunidad de repetir estereotipos dañinos, lenguaje venenoso y sesgos sociales en sus datos de entrenamiento. Para comprender y resolver adecuadamente cualquier daño potencial que pueda resultar del uso del modelo, se recomienda que los usuarios realicen un estudio exhaustivo de imparcialidad y sesgo específico de la tarea antes de utilizarlo.
En conclusión, los investigadores desarrollaron un método de preentrenamiento que permite que los modelos seq2seq superen a los LLM de descodificador mucho más grandes en varias tareas, tanto en un escenario de pocos disparos como con ajuste fino. En su esfuerzo, Amazon espera presentar un argumento sólido a favor de los modelos seq2seq como un potente sustituto de los modelos solo decodificadores para la capacitación de LLM.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Modelo de profesor de Alexa: preentrenamiento y destilación de codificadores de miles de millones de parámetros para sistemas de comprensión del lenguaje natural‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y artículo de referencia de Amazon.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools