Facebook desarrolla un nuevo método para duplicar el rendimiento de los transformadores de IA

Estás leyendo la publicación: Facebook desarrolla un nuevo método para duplicar el rendimiento de los transformadores de IA

Facebook ha desarrollado un Nuevo método para duplicar el rendimiento de los transformadores AI. el metodo es basado en la arquitectura del transformador y está diseñado específicamente para texto de formato largo, como libros, artículos y blogs. El objetivo del nuevo AI transformer es mejorar el rendimiento de modelos basados ​​en transformadores en texto de formato largo haciéndolos más eficientes y efectivos en el manejo de secuencias largas. Los resultados del transformador AI son muy prometedores y este nuevo método tiene la posibilidad de ayudar a mejorar el rendimiento de los modelos basados ​​en transformadores en una variedad de tareas.

Se espera que este nuevo método tenga un impacto significativo en las tareas de procesamiento del lenguaje natural, como la traducción de idiomas, el resumen y los sistemas de preguntas y respuestas. También se espera que conduzca al desarrollo de modelos de IA más sofisticados que puedan manejar textos más largos y complejos.

Facebook desarrolló un nuevo método para duplicar el rendimiento de los transformadores de IA

Para procesar la imagen, los transformadores modernos la cortan en parches (generalmente cuadrados: vea el gif a continuación) y luego operan en representaciones de estas partículas, cada una de las cuales está representada por un “token”. Los transformadores, como sabemos, funcionan más lentamente cuanto más de estos tokens haya (esto se aplica tanto a los textos como a las imágenes), y el transformador más común tiene una relación cuadrática. Es decir, a medida que se agregan más tokens, más lento se vuelve el procesamiento. Para abordar este problema, los investigadores propusieron varias técnicas para reducir la cantidad de tokens necesarios para el procesamiento de imágenes, como la agrupación jerárquica y adaptativa. Estos métodos tienen como objetivo mantener la calidad de la salida y minimizar el costo computacional.

🔥 Recomendado:  La guía definitiva para contenido de formato largo (2023)

El nuevo método encuentra los parches más similares en los espacios entre el procesamiento de diferentes bloques y los combina para reducir la complejidad computacional. La proporción de tokens fusionados es un hiperparámetro; cuanto mayor sea, menor será la calidad, pero también mayor será la aceleración. Los experimentos muestran que es posible fusionar aproximadamente el 40 % de los tokens con una pérdida de calidad de 0,1-0,4 % y obtener el doble de aceleración (consumiendo menos memoria). Este nuevo método es una solución prometedora para reducir la complejidad computacional del procesamiento de imágenes y podría permitir un procesamiento más rápido y eficiente sin comprometer la calidad del resultado final.

Cuando visualizamos qué parches fusionamos, podemos ver que están 1) cerca uno del otro y 2) describen el mismo objeto (ver áreas del mismo color en el GIF). Es decir, no se pierde información significativa; el objeto permanece “en el campo de visión” del modelo. Cuanto más tarde se aplique esto en el transformador, más tokens se fusionarán (ya que estas son representaciones de nivel superior que describen bien el contenido de la imagen).

Estos enfoques de ingeniería basados ​​en el ingenio y la comprensión de cómo funciona algo parecen muy atractivos. Además, los desarrolladores de Meta prometen traer más a StableDiffusion para acelerar las cosas allí también. Es increíble que, debido a que los transformadores están en todas partes, tales trucos se puedan implementar rápidamente en una amplia gama de modelos. Esto muestra el potencial de las soluciones de ingeniería para tener un amplio impacto en varias industrias. Será interesante ver cómo estos avances en los modelos de transformadores seguirán evolucionando y mejorando con el tiempo.

  • Meta AI y Paperswithcode han lanzado el primer modelo 120B Galactica entrenado en textos científicos, lo que permite predicciones más precisas y rápidas. El objetivo de Galactica es ayudar a los investigadores a separar lo importante de lo irrelevante.

Leer más noticias relacionadas: