Estás leyendo la publicación: Investigadores de China proponen un nuevo marco de aprendizaje automático llamado BootMAE (codificadores automáticos enmascarados con arranque) para el preentrenamiento de Vision BERT
En el campo de la visión por computadora, el aprendizaje de representación autosupervisado ha sido un problema desafiante durante mucho tiempo. El aprendizaje de representación autosupervisado tiene como objetivo aprender la representación transferible de datos no etiquetados. El enfoque reciente de Autocodificador enmascarado (MAE) presenta un marco de codificador-decodificador asimétrico donde el codificador se enfoca en parches visibles y la salida del codificador se pasa a un decodificador liviano junto con tokens enmascarados. Este trabajo propone autocodificadores enmascarados con arranque (BootMAE) para el preentrenamiento de visión BERT. Este enfoque tiene dos diseños principales: codificador de momento y decodificador consciente de objetivos. Hay cuatro módulos principales de esta investigación. 1) Para registrar el conocimiento de la estructura se diseña un codificador. 2) un regresor que utiliza el conocimiento de la estructura del codificador y la información de contexto de bajo nivel para realizar una regresión a nivel de píxel. 3) un predictor para la predicción de representación latente que utiliza el conocimiento de la estructura del codificador y los detalles de contexto de alto nivel. 4) Los decodificadores de regresores y predictores tienen módulos de inyección de características que ayudan a agregar los detalles de sus respectivos objetivos. La Figura 1 muestra la arquitectura de BootMAE junto con la red del codificador, la red del decodificador del regresor de píxeles, la red del decodificador del predictor de funciones y los módulos de inyección de funciones.
En esta investigación, basada en el enfoque MAE, el codificador solo gestiona los parches visibles y produce la representación latente para un entrenamiento eficiente. El módulo de inyección de características propuesto entrega información de contexto directamente en cada capa decodificadora. Proporciona la capa superficial de las características del codificador al decodificador regresor y las características de la capa profunda al decodificador predictor. El módulo de regresión a nivel de píxel empleado no solo ayuda a evitar que el modelo se colapse, sino que también dirige al modelo a comprender el razonamiento con respecto a las texturas de bajo nivel.
Esta investigación utiliza dos bloques de transformadores de visión y una capa completamente conectada para crear una arquitectura liviana para el regresor que puede pronosticar píxeles faltantes. Esta investigación utiliza el predictor para predecir la representación de características de los parches enmascarados. Además, utiliza la salida de los píxeles normalizados del regresor como objetivo de reconstrucción real del terreno para MAE.
En este trabajo se utilizan la base ViT estándar, ViT-B y ViT-L para el codificador. La entrada consta de parches de 14 x 14 desde el 224 x 224, y cada parche consta de un tamaño de 16×16. Con un tamaño de lote de 4096, los modelos ViT-B y ViT-L se entrenan para 800 épocas. El optimizador de Adam y un programa de coseno tienen una tasa de aprendizaje de 2.4e-3 para 40 épocas. Para ImageNet, se utilizan 100 y 50 épocas para ViT-B y ViT-L, respectivamente.
Una sección principal de la arquitectura propuesta es la predicción de características de arranque. La función de arranque se utiliza para ayudar al modelo a aprender de información semántica dinámicamente más rica mediante la predicción de la representación latente generada iterativamente de la imagen. Los resultados muestran que la predicción de características con arranque supera al enfoque estándar MAE. Este enfoque también agrega un módulo de integración de características. Le da al regresor y al predictor varias características correspondientes a diferentes niveles de información de contexto. El método investiga el enmascaramiento aleatorio y el enmascaramiento aleatorio por bloques, dos técnicas de enmascaramiento de uso común en el modelado de imágenes enmascaradas.
El regresor y el predictor contienen dos capas de transformadores. Este enfoque varía la profundidad de la red y realiza experimentos. Los resultados demuestran que las profundidades 2 y 8 logran el mejor rendimiento en términos de ajuste fino. En el conjunto de datos de ImageNet-1K, los algoritmos sugeridos dan como resultado una precisión de validación de primer nivel en comparación con otras técnicas de clasificación de vanguardia. Los experimentos de transferencia de aprendizaje se evalúan en segmentación semántica y detección y segmentación de objetos para validar aún más la representación visual aprendida del BootMAE propuesto. El modelo sugerido se desempeña mejor en ambas tareas que todas las demás líneas base y respalda la utilidad del marco sugerido.
Por lo tanto, el modelado de imágenes enmascaradas para el entrenamiento previo BERT de visión en el dominio NLP se ha vuelto increíblemente popular. Esta investigación propone que BOOTMAE tiene dos módulos principales. Arranca la representación de características latentes de MAE que logra mejores resultados a medida que el objetivo de predicción se desarrolla con el entrenamiento, entregando datos más ricos gradualmente. Separa el contexto específico del objetivo del codificador, haciendo que se centre en la estructura de la imagen. El método sugerido ayuda al codificador a concentrarse en el modelado semántico.
Este artículo está escrito como un artículo de resumen de investigación por el personal de investigación de Marktechpost basado en el trabajo de investigación ‘Codificadores automáticos enmascarados con arranque para entrenamiento previo de Vision BERT‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace de github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools