Estás leyendo la publicación: La última investigación de inteligencia artificial de Intel explica un enfoque alternativo para entrenar modelos de aprendizaje profundo para casos de uso del mundo real de ritmo rápido, en una variedad de…
Detección de objetos significa todas las técnicas y medios para detectar, identificar y clasificar objetos en una imagen. Recientemente, el campo de la inteligencia artificial ha visto muchos avances gracias al aprendizaje profundo y al procesamiento de imágenes. Ahora es posible reconocer imágenes o incluso encontrar objetos dentro de una imagen. Con el aprendizaje profundo, la detección de objetos se ha vuelto muy popular entre varias familias de modelos (R-CNN, YOLO, etc.). Sin embargo, la mayoría de los métodos existentes en la literatura se adaptan a la base de datos de entrenamiento y no logran generalizar frente a imágenes pertenecientes a diferentes dominios.
Aunque la mayoría de las arquitecturas están optimizadas para puntos de referencia bien conocidos, se han logrado resultados significativos utilizando CNN para tareas específicas de un determinado dominio. Sin embargo, estas soluciones específicas de dominio a menudo están bien ajustadas para un conjunto de datos de destino específico, comenzando con una arquitectura y técnicas de capacitación cuidadosamente seleccionadas. Este método de entrenamiento de modelos tiene el inconveniente de adaptar innecesariamente los enfoques a un conjunto de datos en particular. Para abordar este problema, un equipo de investigación de Intel ofrece una estrategia diferente que también sirve como base de la plataforma Intel® Geti™: una plantilla independiente del conjunto de datos para el entrenamiento de detección de objetos compuesta por modelos cuidadosamente seleccionados y previamente entrenados y un confiable tubería de formación para la formación adicional.
Los autores experimentaron con arquitecturas en tres categorías: liviana, extremadamente precisa y mediana, para desarrollar un alcance de los modelos utilizados para los diversos conjuntos de datos de detección de objetos, independientemente de la complejidad y el tamaño del objeto. Se emplean pesos previamente entrenados para alcanzar la convergencia del modelo rápidamente y comenzar con alta precisión. Además, se realiza una operación de aumento de datos para aumentar las imágenes con un recorte aleatorio, giro horizontal y distorsiones de brillo y color. Se aplicó entrenamiento multiescala para modelos medianos y precisos para hacerlos más robustos. Además, para lograr un equilibrio entre precisión y complejidad, los autores seleccionaron empíricamente resoluciones particulares para cada modelo después de realizar varias pruebas. La detención anticipada y el planificador adaptativo ReduceOnPlateau también se utilizan para finalizar el entrenamiento si algunas épocas de entrenamiento no mejoran aún más el resultado. Puede ser difícil elegir un parámetro de “paciencia” adecuado para Early Stopping y ReduceOnPlateau en el caso del entrenamiento independiente del conjunto de datos porque la cantidad de iteraciones en una época varía significativamente de un conjunto de datos a otro, según su longitud. Los autores propusieron un parámetro de paciencia de iteración para abordar este problema. Este parámetro funciona de manera similar al parámetro de paciencia de época mientras garantiza que se realizó una cantidad predeterminada de iteraciones durante el entrenamiento en épocas particulares. Para el entrenamiento se utilizan once conjuntos de datos públicos con varios dominios, números de imágenes, clases, tamaños de objetos, la dificultad general y la alineación horizontal/vertical.
La estrategia seguida para entrenar todos los modelos se describe a continuación:
• comenzar con los pesos que han sido entrenados en el conjunto de datos COCO;
• aumentar las imágenes con recorte, volteo y distorsiones fotográficas;
• emplear el planificador de tasa de aprendizaje ReduceOnPlateau con paciencia de iteración;
• emplear la detención anticipada para evitar el sobreajuste en conjuntos de datos grandes y la paciencia de iteración para evitar el ajuste insuficiente en conjuntos de datos pequeños.
Se realizó un experimento de ablación eliminando cada truco de entrenamiento de la canalización para determinar el efecto que tenía sobre la precisión al final. De acuerdo con estas pruebas, cada uno de estos trucos aumentó la precisión de la métrica objetivo en aproximadamente 1 AP (precisión promedio).
En esta publicación, un equipo de investigación de Intel presenta un método diferente para entrenar modelos de redes neuronales profundas para casos de uso dinámicos del mundo real en varias industrias. Examinaron específicamente ATSS y FCOS como arquitecturas de modelo medio, VFNet, Cascade-RCNN y Faster-RCNN como modelos precisos, así como SSD y YOLOX como arquitecturas de modelo rápido para inferencia. Descubrieron técnicas y métodos para la optimización parcial en el camino, lo que les permitió mejorar los puntajes AP promedio en todo el corpus del conjunto de datos. Finalmente, este estudio produjo tres plantillas de entrenamiento de detección de objetos independientes del conjunto de datos (una para cada uno de los tres regímenes de precisión de rendimiento), que ofrecen una base sólida en una amplia gama de conjuntos de datos y se pueden implementar en la CPU usando la caja de herramientas OpenVINO™.