Estás leyendo la publicación: Los investigadores de IA de Google proponen un método para el entrenamiento altamente eficiente y estable de un ViT de parámetro 22B (ViT-22B)
La transferencia de redes troncales de visión previamente entrenadas ha mejorado el rendimiento en varias tareas de visión, al igual que el procesamiento del lenguaje natural. Conjuntos de datos más grandes, infraestructuras escalables y técnicas de capacitación innovadoras han impulsado su crecimiento. A pesar de esto, los modelos de lenguaje han superado significativamente a los modelos de visión en términos de capacidades emergentes a gran escala. El modelo de lenguaje más denso tiene 540B parámetros, el modelo de visión más denso tiene solo 4B parámetros y un modelo moderadamente parametrizado para un modelo de lenguaje competitivo de nivel de entrada a menudo comprende más de 10B parámetros.
Los modelos de lenguaje tienen más de un billón de parámetros, sin embargo, los modelos de visión escasa registrados más grandes solo tienen 15B. Los modelos dispersos muestran la misma tendencia. En este trabajo se presenta el modelo ViT denso más grande hasta la fecha, ViT-22B. Identifican inestabilidades patológicas de entrenamiento que impiden escalar la receta predeterminada a parámetros 22B y muestran mejoras arquitectónicas que lo permiten. Además, diseñan cuidadosamente el modelo para proporcionar un entrenamiento paralelo al modelo con una eficiencia nunca antes vista. Se utiliza un conjunto completo de tareas de evaluación, que van desde la clasificación hasta tareas de salida densa, para determinar si ViT-22B cumple o supera el estado actual de la técnica.
Con 22 mil millones de parámetros, ViT-22B es el modelo de transformador de visión más grande disponible. Por ejemplo, ViT-22B obtiene una precisión del 89,5 % en ImageNet incluso cuando se utiliza como un extractor de características visuales congeladas. Logra una precisión del 85,9 % en ImageNet en la situación de tiro cero utilizando una torre de texto entrenada para que coincida con estos atributos visuales. La modelo también es una excelente instructora; Usándolo como un objetivo de destilación, educan a un estudiante de ViT-B que obtiene un 88,6 %, líder en la industria, en ImageNet. Las mejoras en la confiabilidad, las estimaciones de incertidumbre y las compensaciones de equidad acompañan este desempeño. Por último, las propiedades del modelo se asemejan más a la forma en que las personas ven las cosas, lo que produce un sesgo de forma nunca antes visto del 87%.
ViT-22B es un modelo de codificador basado en transformador con capas paralelas, normalización de consulta/clave (QK) y sesgos omitidos para aumentar la eficiencia y la estabilidad del entrenamiento a escala. Su arquitectura es similar a la del Vision Transformer original.
Capas superpuestas. En lugar de aplicar secuencialmente los bloques Atención y MLP como en el Transformador tradicional, ViT-22B lo hace en paralelo. Las proyecciones lineales del MLP y los bloques de atención permiten una paralelización diferente.
Normalización de QK. Después de unos pocos miles de pasos, vieron una pérdida de entrenamiento divergente mientras aumentaban ViT más allá de los esfuerzos anteriores. En particular, los modelos con unos parámetros 8B mostraron una inestabilidad similar. Fue provocado por valores logit de atención anormalmente altos, que produjeron pesos de atención que eran prácticamente uno-caliente y casi no tenían entropía. Usan el método de aplicar LayerNorm en las consultas y claves antes del cálculo de la atención del producto escalar para abordar esto y excluir los sesgos de las proyecciones de LayerNorms y QKV. Después de PaLM, todas las LayerNorms se aplicaron sin sesgo ni centrado, y se eliminaron los términos de sesgo de las proyecciones QKV.
Demuestran cómo se puede mejorar el diseño original para lograr un alto uso de hardware y estabilidad de entrenamiento, produciendo un modelo que supera al SOTA en varios puntos de referencia. En particular, se puede obtener un rendimiento excelente creando incrustaciones con el modelo congelado y luego colocando capas finas encima de esas incrustaciones. Sus análisis demuestran además que ViT-22B supera a los modelos anteriores en equidad y robustez y es más similar a las personas en términos de sesgo de forma y textura. El código y el conjunto de datos aún no se han publicado.