Estás leyendo la publicación: Las últimas investigaciones sobre inteligencia artificial (IA) de Amazon proponen un nuevo marco humano en el circuito para generar anotaciones de segmentación semántica para videos completos
En comparación con el aprendizaje no supervisado, el aprendizaje supervisado produce resultados más precisos en la visión artificial (CV). El aprendizaje supervisado utiliza conjuntos de datos anotados para desarrollar algoritmos de clasificación o predicción. Sin embargo, el proceso de anotación de datos es laborioso, consume mucho tiempo y requiere mucho esfuerzo humano. Esta operación se vuelve considerablemente más costosa cuando se utiliza la segmentación semántica, ya que implica anotar cada píxel de una imagen. Sin embargo, la anotación semántica precisa por píxel es necesaria para entrenar y evaluar los algoritmos de segmentación semántica cuando se trata de conjuntos de datos de video. Sin embargo, cuando se trata de videos en lugar de imágenes, el costo de las anotaciones se vuelve aún más prohibitivo, razón por la cual las anotaciones con frecuencia se restringen a una pequeña fracción del contenido del video.
Para abordar este problema, un equipo de investigadores de Amazon desarrolló la anotación automática de segmentación semántica de video Human-in-the-loop (HVSA). Este marco de trabajo de vanguardia es capaz de proporcionar anotaciones de segmentación semántica para un video completo de manera más rápida y efectiva. HVSA cambia continuamente entre selección activa de muestras y ajuste fino del tiempo de prueba hasta que se asegure la calidad de la anotación. Mientras que el ajuste fino del tiempo de prueba propaga las anotaciones manuales de las muestras seleccionadas a todo el video, la selección activa de muestras establece los ejemplos más cruciales para la anotación manual. El trabajo de los investigadores también se presentará en la prestigiosa Winter Conference on Applications of Computer Vision (WACV).
El equipo emplea una red previamente entrenada para realizar la segmentación semántica de los videos. Su método implica adaptar el modelo preentrenado a un video de entrada específico para que pueda configurarse para ayudar a anotar el video con una precisión extremadamente alta. Este método se inspiró en la forma en que los anotadores humanos manejan las tareas de anotación de video. Para identificar las categorías de objetos apropiadas, se examinan los marcos adyacentes. Además, también se tienen en cuenta las anotaciones existentes del mismo vídeo. Así es como su enfoque hace uso de ajuste fino del tiempo de prueba. Los investigadores agregaron una nueva función de pérdida que considera estas dos fuentes de datos para modificar la red preentrenada al video de entrada. Mientras que el segundo componente de la pérdida se encarga de penalizar las predicciones inconsistentes con los datos existentes, la primera parte penaliza la predicción semántica no confiable entre cuadros sucesivos.
HVSA utiliza el aprendizaje activo para ajustar el modelo utilizando muestras que el algoritmo elige activamente y etiquetan los anotadores en cada iteración. El muestreo de incertidumbre es la esencia principal detrás del aprendizaje activo. En términos simples, se debe elegir una muestra para la anotación manual si una red predice su etiqueta con confianza insuficiente. Sin embargo, el muestreo de incertidumbre es inadecuado por sí solo. Los investigadores también observaron el muestreo de diversidad para asegurarse de que las muestras fueran distintas. Estos tipos de muestras se generaron utilizando un muestreo basado en agrupaciones. La estrategia general se puede resumir en la realización inicial de una selección activa de las muestras de anotación que proporcionan la mayor cantidad de información durante cada iteración. Una vez que estas muestras elegidas reciben anotaciones manuales, el método del equipo utiliza el conocimiento semántico y las limitaciones temporales para refinar el modelo de segmentación semántica específico del video. Todo el video se puede anotar usando este modelo.
Se descubrió a través de evaluaciones experimentales en dos conjuntos de datos que HVSA de Amazon logra una precisión impresionante (más del 95 %) y anotaciones de segmentación semántica casi perfectas. El hecho de cumplir estos objetivos con el menor tiempo y gasto de anotación resulta un factor diferenciador. HVSA solo requiere unas pocas docenas de minutos para cada iteración. Los investigadores están investigando aún más cómo optimizar esto mediante la paralelización multitarea.