Estás leyendo la publicación: Esta investigación de inteligencia artificial (IA) examina las diferencias entre transformadores y ConvNets mediante pruebas de simulación contrafactual
En la última década, las redes neuronales convolucionales (CNN) han sido la columna vertebral de las aplicaciones de visión artificial. Tradicionalmente, las tareas de visión por computadora se han abordado utilizando CNN, diseñadas para procesar datos con una estructura similar a una cuadrícula, como una imagen. Las CNN aplican una serie de filtros a los datos de entrada, extrayendo características como bordes, esquinas y texturas. Luego, las capas posteriores procesan estas características en la red, que las combinan para formar características más complejas y, finalmente, hacer una predicción.
La saga de éxito de las CNN comenzó alrededor de 2012 con el lanzamiento de AlexNet y su desempeño extremadamente impresionante en la detección de objetos. Después de eso, la gente se esforzó mucho en mejorarlos aún más y los aplicó en múltiples dominios.
El dominio de las CNN se ha enfrentado recientemente con la introducción de la estructura del transformador de visión (ViT). ViT ha mostrado resultados impresionantes en el rendimiento de detección de objetos, superando incluso a las CNN de última generación. Sin embargo, la competencia entre CNN y ViT aún continúa. Dependiendo de la tarea y el conjunto de datos, uno supera al otro, y si cambiamos el entorno de prueba, los resultados cambian.
ViT lleva el poder de los transformadores al campo de la visión artificial al tratar las imágenes como una secuencia de parches en lugar de una cuadrícula de píxeles. Luego, estos parches se procesan utilizando los mismos mecanismos de autoatención que en los transformadores NLP, lo que permite que el modelo sopese la importancia de los diferentes parches en función de su relación con otros parches en la imagen.
Una de las ventajas clave de ViT es que es mucho más eficiente que las CNN, ya que no requiere el cálculo de filtros convolucionales. Esto facilita el entrenamiento y permite modelos más grandes, lo que puede mejorar el rendimiento. Otra ventaja de ViT es que es mucho más flexible que las CNN. Dado que procesa los datos como una secuencia en lugar de una cuadrícula, puede manejar datos de cualquier tamaño y relación de aspecto sin necesidad de ningún procesamiento previo adicional. Esto contrasta con las CNN, que requieren que los datos de entrada se redimensionen y se rellenen para ajustarse a una cuadrícula de tamaño fijo.
Por supuesto, la gente quería comprender las ventajas reales de las ViT sobre las CNN, y recientemente se han realizado muchos estudios al respecto. Sin embargo, hay un problema común en todas esas comparaciones, más o menos. Intentan comparar ViT y CNN utilizando la precisión de ImageNet como métrica. Sin embargo, no consideran que las ConvNet que se comparan puedan estar utilizando técnicas de capacitación y diseño ligeramente obsoletas.
Entonces, ¿cómo podemos asegurarnos de hacer una comparación justa entre ViT y CNN? Necesitamos estar seguros de que solo comparamos diferencias estructurales. Pues bien, los investigadores de este trabajo han identificado cómo debe ser la comparación, y la describen de la siguiente manera: “Creemos que es importante estudiar las diferencias que surgen en las representaciones aprendidas entre Transformers y ConvNets a variaciones naturales como iluminación, oclusiones, escala de objetos, pose de objetos y otros.”
Esta es la idea principal detrás de este documento. Pero, ¿cómo se podría lograr el entorno para hacer esta comparación? Había dos obstáculos principales que impedían esta comparación. Primero, las arquitecturas Transformer y ConvNet no eran comparables en términos de técnicas de diseño generales y diferencias de capa convolucional de entrenamiento. En segundo lugar, la escasez de conjuntos de datos que incluyan variaciones naturalistas detalladas de la escala del objeto, la pose del objeto, la iluminación de la escena y las oclusiones 3D, entre otros.
El primer problema se resolvió comparando ConvNext CNN con una arquitectura de transformador Swin; la única diferencia entre estas redes es el uso de convoluciones y transformadores.
La principal contribución de este artículo trata sobre la solución del segundo problema. Idean una solución para probar las arquitecturas de manera contrafáctica utilizando imágenes simuladas. Construyeron un conjunto de datos sintéticos, llamado Conjunto de datos de objetos de variación naturalista (NVD), que incluye diferentes modificaciones a la escena.
La simulación contrafactual es un método de razonamiento sobre lo que podría haber sucedido en el pasado o lo que podría suceder en el futuro bajo diferentes condiciones. Implica considerar cómo el resultado de un evento o secuencia de eventos podría haber sido diferente si uno o más de los factores que contribuyeron al resultado hubieran sido diferentes. Entonces, en nuestro contexto, explora el resultado de la red si cambiamos la pose del objeto, la iluminación de la escena, las oclusiones 3D, etc. ¿Seguiría prediciendo la red la etiqueta correcta para el objeto?
Los resultados mostraron que ConvNext fue consistentemente más sólido que Swin con respecto al manejo de variaciones en la posición de los objetos y las rotaciones de la cámara. Además, también encontraron que ConvNext tendía a funcionar mejor que Swin en el reconocimiento de objetos a pequeña escala. Sin embargo, cuando se trataba de manejar la oclusión, las dos arquitecturas eran más o menos equivalentes, con Swin superando ligeramente a ConvNext en casos de oclusión severa. Por otro lado, ambas arquitecturas lucharon con variaciones naturalistas en los datos de prueba. Se observó que aumentar el tamaño de la red o la diversidad y cantidad de los datos de entrenamiento condujo a una mayor robustez.