Estás leyendo la publicación: Conozca ConvNeXt V2: un modelo de IA que mejora el rendimiento y la capacidad de escalado de ConvNets mediante codificadores automáticos enmascarados
El dominio de la visión por computadora ha experimentado un avance significativo en la última década, y este avance se puede atribuir principalmente a la aparición de las redes neuronales convolucionales (CNN). La impecable capacidad de las CNN para procesar datos 2D, gracias a su mecanismo de extracción de características jerárquicas, fue un factor clave detrás de su éxito.
Las CNN modernas han recorrido un largo camino desde su introducción. Mecanismos de capacitación actualizados, aumentos de datos, paradigmas de diseño de red mejorados y más. La literatura está llena de ejemplos exitosos de estas propuestas que hicieron que las CNN fueran mucho más poderosas y eficientes.
Por otro lado, el aspecto de código abierto del dominio de visión por computadora ha contribuido a mejoras significativas. Gracias a los modelos visuales a gran escala preentrenados ampliamente disponibles, el aprendizaje de características se volvió mucho más eficiente; por lo tanto, comenzar desde cero no era el caso para la mayoría de los modelos de visión.
Hoy en día, el rendimiento de un modelo de visión está determinado principalmente por tres factores: la arquitectura de red neuronal elegida, el método de entrenamiento y los datos de entrenamiento. El avance en cualquiera de estos tríos da como resultado un aumento significativo en el rendimiento general.
De estos tres, las innovaciones en la arquitectura de red han jugado la mayor importancia en el avance. Las CNN eliminaron la necesidad de la ingeniería manual de características al permitir el uso de métodos genéricos de aprendizaje de características. No hace mucho tiempo, tuvimos el avance de las arquitecturas transformadoras en el dominio del procesamiento del lenguaje natural y se transfirieron al dominio de la visión. Los transformadores tuvieron bastante éxito gracias a su gran capacidad de escalado tanto en los datos como en el tamaño del modelo. Luego, finalmente, en los últimos años, se introdujo la arquitectura ConvNeXt. Modernizó las redes convolucionales tradicionales y nos mostró que los modelos de convolución puros también podrían escalar.
Sin embargo, tenemos un problema menor aquí. Todos estos “avances” se midieron a través de una sola tarea de visión artificial, rendimiento de reconocimiento de imágenes supervisado en ImageNet. Sigue siendo el método más común para explorar el espacio de diseño de las arquitecturas de redes neuronales.
Por otro lado, tenemos investigadores que buscan una forma diferente de enseñar a las redes neuronales cómo procesar imágenes. En lugar de usar imágenes etiquetadas, utilizan un enfoque autosupervisado en el que la red tiene que descubrir qué hay en la imagen por sí misma. Los codificadores automáticos enmascarados son una de las formas más populares de lograr esto. Se basan en la técnica de modelado de lenguaje enmascarado, muy utilizada en el procesamiento del lenguaje natural.
Es posible mezclar y combinar diferentes técnicas al entrenar redes neuronales, pero es complicado. Se puede combinar ConvNeXt con codificadores automáticos enmascarados. Sin embargo, dado que los codificadores automáticos enmascarados están diseñados para funcionar mejor con transformadores para procesar datos secuenciales, puede ser demasiado costoso desde el punto de vista computacional usarlos con redes convolucionales. Además, el diseño puede no ser compatible con redes convolucionales debido al mecanismo de ventana deslizante. Además, investigaciones anteriores han demostrado que puede ser difícil obtener buenos resultados cuando se utilizan métodos de aprendizaje autosupervisados, como codificadores automáticos enmascarados con redes convolucionales. Por lo tanto, es crucial tener en cuenta que diferentes arquitecturas pueden tener diferentes comportamientos de aprendizaje de funciones que pueden afectar la calidad del resultado final.
Aquí es donde entra en juego ConvNeXt V2. Es una arquitectura de codiseño que utiliza el autoencoder enmascarado en el framework ConvNeXt para lograr resultados similares a los obtenidos usando transformadores. Es un paso para que los métodos de aprendizaje autosupervisado basados en máscaras sean efectivos para los modelos ConvNeXt.
Diseñar el codificador automático enmascarado para ConvNeXt fue el primer desafío y lo resolvieron de manera inteligente. Tratan la entrada enmascarada como un conjunto de parches dispersos y utilizan circunvoluciones dispersas para procesar solo las partes visibles. Además, la parte del decodificador del transformador en el codificador automático enmascarado se reemplaza con un solo bloque ConvNeXt, lo que hace que toda la estructura sea completamente convolucional, lo que a cambio mejora la eficiencia previa al entrenamiento.
Finalmente, se agrega una capa de normalización de respuesta global al marco para mejorar la competencia de funciones entre canales. Sin embargo, este cambio es efectivo cuando el modelo se entrena previamente con codificadores automáticos enmascarados. Por lo tanto, reutilizar un diseño de arquitectura fija del aprendizaje supervisado puede ser subóptimo.
ConvNeXt V2 mejora el rendimiento cuando se utiliza junto con codificadores automáticos enmascarados. Está diseñado específicamente para tareas de aprendizaje autosupervisado. El uso del preentrenamiento del codificador automático enmascarado completamente convolucional puede mejorar significativamente el rendimiento de las redes convolucionales puras.