Estás leyendo la publicación: Meta AI Open-Sources DINOv2: un nuevo método de IA para entrenar modelos de visión artificial de alto rendimiento basados en aprendizaje autosupervisado
Debido a los desarrollos recientes en IA, los modelos básicos de visión por computadora ahora se pueden entrenar previamente utilizando conjuntos de datos masivos. Producir funciones visuales de uso general, o funciones que funcionen en distribuciones de imágenes y trabajos sin ajustes finos, podría simplificar considerablemente el uso de imágenes en cualquier sistema, y estos modelos son muy prometedores en este sentido. Este estudio demuestra que tales características pueden ser generadas por los enfoques de preentrenamiento actuales, en particular los métodos autosupervisados, cuando se entrenan con suficientes datos seleccionados de varias fuentes. Meta AI ha presentado DINOv2, que es el primer método de aprendizaje autosupervisado para entrenar modelos de visión por computadora que logra un rendimiento a la par o mejor que el estándar de oro.
Estas características visuales son estables y funcionan bien en todos los dominios sin ajustes. Se producen utilizando modelos DINOv2, que se pueden utilizar directamente con clasificadores tan básicos como capas lineales en diversas aplicaciones de visión artificial. Los modelos preentrenados recibieron 142 millones de fotos sin etiquetas ni comentarios.
Debido a que no requiere grandes volúmenes de datos etiquetados, el aprendizaje autosupervisado, el mismo enfoque utilizado para desarrollar modelos de lenguaje grande de última generación para aplicaciones de texto, es una forma poderosa y versátil de entrenar modelos de IA. Los modelos entrenados con el proceso DINOv2 no requieren ninguna información para conectarse con las fotos en el conjunto de entrenamiento, lo que lo hace similar a los sistemas autosupervisados anteriores. Imagínelo como poder aprender de cada imagen dada, no solo de aquellas con un conjunto predeterminado de etiquetas o un conjunto predeterminado de texto alternativo o un título predeterminado.
Características esenciales
- DINOv2 es un enfoque novedoso para construir modelos de visión artificial de alto rendimiento mediante el aprendizaje autosupervisado.
- DINOv2 proporciona el aprendizaje no supervisado de características visuales de alta calidad que se pueden usar tanto para tareas visuales a nivel de imagen como a nivel de píxel. Se cubren la categorización de imágenes, la recuperación de instancias, la comprensión de video, la estimación de profundidad y muchas más tareas.
- El aprendizaje autosupervisado es el principal atractivo aquí, ya que permite que DINOv2 construya marcos genéricos y flexibles para diversas tareas y aplicaciones de visión artificial. No es necesario ajustar el modelo antes de aplicarlo a diferentes dominios. Este es el pináculo del aprendizaje no supervisado.
- La creación de un conjunto de datos diversificado, altamente seleccionado y a gran escala para entrenar los modelos también es una parte integral de este estudio. Hay 142 millones de fotos en la recopilación de datos.
- Las implementaciones más eficientes que disminuyen factores como la utilización de la memoria y los requisitos del procesador son otro esfuerzo algorítmico para estabilizar el entrenamiento de modelos más grandes.
- Los investigadores también han publicado los modelos preentrenados para DINOv2. Los puntos de control para los modelos ViT publicados en PyTorch Hub también se incluyen en el código de capacitación previa y la receta para los modelos Vision Transformer.
Ventajas
- Los clasificadores lineales simples pueden aprovechar las funciones de alto rendimiento proporcionadas por DINOv2.
- La adaptabilidad de DINOv2 se puede utilizar para construir infraestructuras de uso general para diversas aplicaciones de visión artificial.
- Las funciones funcionan mucho mejor que los métodos de estimación de profundidad de última generación dentro y fuera del dominio.
- El esqueleto sigue siendo genérico sin ajustes finos, y las mismas características pueden emplearse simultáneamente en numerosas actividades.
- La familia de modelos DINOv2 funciona a la par con las funciones de supervisión débil (WSL), lo que representa una mejora significativa con respecto al estado del arte anterior en el aprendizaje autosupervisado (SSL).
- Las funciones generadas por los modelos DINOv2 son útiles tal cual, lo que demuestra el rendimiento superior fuera de distribución de los modelos.
- La confianza de DINOv2 en la autosupervisión significa que puede estudiar cualquier base de datos de imágenes. Además, puede detectar aspectos, como estimaciones de profundidad, que el método del statu quo no puede.
Tener que depender de las anotaciones humanas de las imágenes es un obstáculo, ya que reduce los datos disponibles para el entrenamiento del modelo. Las imágenes pueden ser extremadamente difíciles de clasificar en campos de aplicación altamente especializados. Por ejemplo, es difícil entrenar modelos de aprendizaje automático utilizando imágenes celulares etiquetadas porque se necesitan más especialistas para anotar las celdas en la escala necesaria. Para facilitar la comparación de terapias establecidas con otras novedosas, por ejemplo, el entrenamiento autosupervisado en fotografía celular microscópica allana el camino para modelos de imágenes celulares fundamentales y, por extensión, descubrimiento biológico.
Descartar fotos superfluas y equilibrar el conjunto de datos entre conceptos es crucial para construir un conjunto de datos de preentrenamiento a gran escala a partir de dicha fuente. Entrenar arquitecturas más complejas es una parte vital del esfuerzo y, para mejorar el rendimiento, estos modelos necesitan acceso a más información. Sin embargo, obtener más detalles solo a veces es factible. Los investigadores investigaron utilizando una colección disponible públicamente de datos web rastreados. Diseñaron un proceso para elegir datos significativos inspirados en LASER porque no había un conjunto de datos curado lo suficientemente grande para satisfacer las demandas.
El siguiente paso es utilizar este modelo como elemento de construcción en un sistema de IA más sofisticado que pueda entablar un diálogo con modelos lingüísticos sustanciales. Los sistemas complejos de IA pueden razonar más a fondo sobre las imágenes si tienen acceso a una columna vertebral visual que proporciona información rica sobre las imágenes de lo que es posible con una sola frase de texto.