Estás leyendo la publicación: Un marco mejorado de aprendizaje generativo y contrastivo conjunto (GCL+) para la reidentificación de personas sin supervisión (ReID)
El aprendizaje de representación no supervisado en la reidentificación de personas (ReID) es una tarea en visión artificial que tiene como objetivo identificar a una persona específica a través de diferentes vistas de cámara sin utilizar datos de entrenamiento etiquetados. Un enfoque para resolver este problema es utilizar métodos de aprendizaje contrastivo autosupervisados que aprenden una representación invariable de la identidad de la persona al maximizar la similitud entre dos vistas aumentadas de la misma imagen. Sin embargo, las técnicas tradicionales de aumento de datos utilizadas en este enfoque pueden introducir distorsiones indeseables en las características de identidad, lo que puede no ser favorable para tareas que requieren una alta sensibilidad a la identidad de una persona.
Los métodos ReID no supervisados se pueden dividir en dos categorías: adaptativo de dominio no supervisado (UDA) y ReID totalmente no supervisado. Los métodos UDA utilizan un conjunto de datos de origen etiquetado y GAN o atributos semánticos, mientras que los métodos totalmente no supervisados se basan en pseudoetiquetas. El desempeño de vanguardia reciente tanto en UDA como en configuraciones totalmente no supervisadas se logra utilizando D-Mixup, una nueva técnica de aumento relacionada con la identificación. Recientemente, un nuevo método llamado GCL+ también propuso un generador guiado por malla 3D para desenredar las representaciones en características relacionadas con la identificación y no relacionadas con la identificación y utilizó técnicas novedosas de aumento de datos para lograr un nuevo rendimiento ReID de personas no supervisadas de última generación en conjuntos de datos principales.
La idea principal del método GCL+ es utilizar una GAN para generar vistas aumentadas para el aprendizaje contrastivo en personas ReID sin supervisión. GCL+ incluye un módulo generativo que utiliza un generador de imágenes de personas guiado por una malla 3D para desentrañar la imagen de una persona en características relacionadas y no relacionadas con la identificación. Luego, el módulo contrastivo aprende la invariancia de las vistas aumentadas. Un codificador de identidad compartida acopla los módulos generativo y contrastivo, y después del entrenamiento conjunto, solo se usa el codificador de identidad compartida para la inferencia. El método también incluye técnicas novedosas de aumento de datos sobre características relacionadas y no relacionadas con la identificación y pérdidas contrastivas específicas para ayudar a la red a aprender la invariancia. Este método se probó y se encontró que logra un nuevo rendimiento de ReID de persona no supervisada de última generación en los puntos de referencia convencionales a gran escala. El módulo generativo en esta investigación está compuesto por 4 redes, incluyendo un codificador de identidad, un codificador de estructura, un decodificador y un discriminador. El módulo toma un conjunto de datos ReID de persona sin etiquetar y utiliza el algoritmo HMR para generar mallas 3D correspondientes, que luego se utilizan como guía de estructura en el módulo generativo. El módulo realiza el aumento de datos en dos vías: una en características de estructura no relacionadas con la identidad con mallas rotadas y la otra en características de identidad con D-Mixup. Las mallas rotadas permiten la imitación del punto de vista de la cámara del mundo real, mientras que D-Mixup permite crear imágenes de personas mixtas que conservan la información de la forma del cuerpo correspondiente. El discriminador intenta distinguir entre imágenes reales y generadas con pérdidas adversarias. Además, los autores utilizan un enfoque de formación conjunta para mejorar la discriminabilidad de las representaciones de identidad. El módulo generativo desenreda la representación de la imagen en características de identidad y estructura, mientras que el módulo contrastivo aprende las invariancias contrastando imágenes aumentadas. Ambos módulos están acoplados con un codificador de identidad compartido para lograr un rendimiento óptimo de ReID.
GCL+ se evalúa en cinco puntos de referencia principales de Reid. El método se compara con métodos Reid no supervisados de última generación. Se muestra que es más eficiente en términos de precisión, medida por las características de coincidencia acumulativas (CMC) en el rango 1, rango 5, rango 10 y precisión promedio promedio (mAP) en el conjunto de prueba. Utiliza una optimización de tres etapas para reducir el ruido de las imágenes generadas de manera imperfecta. Se lleva a cabo un estudio de ablación para validar la eficacia de las técnicas de aumento basadas en GAN propuestas y las pérdidas de contraste.
En este artículo, presentamos un nuevo estudio que presenta un marco de aprendizaje contrastivo y generativo conjunto mejorado llamado GCL+ para la reidentificación de personas sin supervisión (ReID). Este marco utiliza una GAN guiada por malla 3D para el aumento de datos, así como un módulo contrastivo para aprender representaciones de identidad sólidas. Se descubrió que las técnicas de aumento basadas en GAN propuestas eran superiores a los métodos tradicionales, y GCL+ superó a los métodos de última generación tanto en entornos de adaptación de dominio totalmente no supervisados como no supervisados. El módulo contrastivo también se puede utilizar como un discriminador contrastivo en una GAN, proporcionando un nuevo enfoque para la generación de imágenes de personas que conservan la identidad sin supervisión.