Meta AI lanza el Segment Anything Model (SAM): un nuevo modelo de IA que puede cortar cualquier objeto en una imagen/video con un solo…

Estás leyendo la publicación: Meta AI lanza el Segment Anything Model (SAM): un nuevo modelo de IA que puede cortar cualquier objeto en una imagen/video con un solo…

La visión artificial se basa en gran medida en la segmentación, el proceso de determinar qué píxeles de una imagen representan un objeto en particular para usos que van desde el análisis de imágenes científicas hasta la creación de fotografías artísticas. Sin embargo, la construcción de un modelo de segmentación preciso para una tarea determinada generalmente requiere la asistencia de expertos técnicos con acceso a la infraestructura de capacitación de IA y grandes volúmenes de datos en el dominio cuidadosamente anotados.

La investigación reciente de Meta AI presenta su proyecto llamado “Segment Anything”, que es un esfuerzo por “democratizar la segmentación” al proporcionar una nueva tarea, un conjunto de datos y un modelo para la segmentación de imágenes. Su Segment Anything Model (SAM) y Segment Anything 1-Billion mask dataset (SA-1B), el conjunto de datos de segmentación más grande de la historia.

Solía ​​haber dos categorías principales de estrategias para tratar los problemas de segmentación. La primera, la segmentación interactiva, podía segmentar cualquier objeto, pero necesitaba un operador humano para refinar una máscara de forma iterativa. Sin embargo, la segmentación automática permitió segmentar categorías de objetos predefinidas. Aún así, requirió una gran cantidad de objetos anotados manualmente, además de recursos informáticos y experiencia técnica, para entrenar el modelo de segmentación. Ninguno de los métodos ofrecía un medio de segmentación infalible y universalmente automatizado.

SAM abarca estas dos categorías más amplias de métodos. Es un modelo unificado que ejecuta tareas de segmentación interactivas y automatizadas sin esfuerzo. Debido a su interfaz de solicitud flexible, el modelo se puede utilizar para diversas tareas de segmentación simplemente diseñando la solicitud adecuada. Además, SAM puede generalizar a nuevos tipos de objetos e imágenes porque está entrenado en un conjunto de datos diverso y de alta calidad de más de mil millones de máscaras. En general, los profesionales no tendrán que recopilar sus datos de segmentación y ajustar un modelo para su caso de uso debido a esta capacidad de generalización.

🔥 Recomendado:  Bing con ChatGPT podría lanzarse hoy: esto es lo que sabemos

Estas características permiten que SAM se transfiera a diferentes dominios y realice diferentes tareas. Algunas de las capacidades del SAM son las siguientes:

  1. SAM facilita la segmentación de objetos con un solo clic del mouse o mediante la selección interactiva de puntos para inclusión y exclusión. Un cuadro de contorno también se puede utilizar como indicación para el modelo.
  2. Para problemas prácticos de segmentación, la capacidad de SAM para generar máscaras válidas competitivas frente a la ambigüedad del objeto es una característica crucial.
  3. SAM puede detectar y enmascarar instantáneamente cualquier objeto en una imagen.
  4. Después de calcular previamente la incrustación de la imagen, SAM puede generar instantáneamente una máscara de segmentación para cualquier solicitud, lo que permite la interacción en tiempo real con el modelo.

El equipo necesitaba un conjunto de datos grande y variado para entrenar el modelo. SAM se utilizó para recopilar la información. En particular, los anotadores utilizaron SAM para realizar anotaciones de imágenes interactivas, y los datos resultantes se utilizaron posteriormente para refinar y mejorar SAM. Este ciclo se ejecutó varias veces para refinar el modelo y los datos.

Las nuevas máscaras de segmentación se pueden recopilar a la velocidad del rayo utilizando SAM. La herramienta utilizada por el equipo hace que la anotación de máscara interactiva sea rápida y fácil, y solo toma unos 14 segundos. Este modelo es 6,5 veces más rápido que la anotación de máscara totalmente manual basada en polígonos de COCO y 2 veces más rápido que el mayor esfuerzo anterior de anotación de datos, que también fue asistido por modelos en comparación con los esfuerzos anteriores de recopilación de datos de segmentación a gran escala.

🔥 Recomendado:  Esto es lo que puede esperar al vender con Amazon FBM (gestionado por el comerciante)

El conjunto de datos de mil millones de máscaras presentado no se podría haber creado solo con máscaras anotadas de forma interactiva. Como resultado, los investigadores desarrollaron un motor de datos para usar al recopilar datos para el SA-1B. Hay tres “engranajes” en este “motor” de datos. El primer modo de operación del modelo es ayudar a los anotadores humanos. En la siguiente marcha, la anotación completamente automática se combina con la asistencia humana para ampliar la gama de máscaras recolectadas. Por último, la creación de máscaras totalmente automatizada admite la capacidad de escalar del conjunto de datos.

El conjunto de datos final tiene más de 11 millones de imágenes con licencias, protecciones de privacidad y 1100 millones de máscaras de segmentación. Los estudios de evaluación en humanos han confirmado que las máscaras en SA-1B son de alta calidad y diversidad y son comparables en calidad a las máscaras de los conjuntos de datos anteriores mucho más pequeños y anotados manualmente. SA-1B tiene 400 veces más máscaras que cualquier conjunto de datos de segmentación existente.

Los investigadores entrenaron a SAM para proporcionar una máscara de segmentación precisa en respuesta a varias entradas, incluidos puntos de primer plano/fondo, un cuadro o máscara aproximado, texto de forma libre, etc. Observaron que la tarea de entrenamiento previo y la recopilación interactiva de datos imponían restricciones particulares en el diseño del modelo. . Para que los anotadores utilicen SAM de manera efectiva durante la anotación, el modelo debe ejecutarse en tiempo real en una CPU en un navegador web.

Un codificador liviano puede transformar instantáneamente cualquier solicitud en un vector de incrustación, mientras que un codificador de imagen crea una incrustación única para la imagen. Luego se usa un decodificador liviano para combinar los datos de estas dos fuentes en una predicción de la máscara de segmentación. Una vez que se ha calculado la incrustación de la imagen, SAM puede responder a cualquier consulta en un navegador web con un segmento en menos de 50 ms.

🔥 Recomendado:  ¿Qué son las acciones de centavo? Cómo comenzar con las acciones de centavo

SAM tiene el potencial de impulsar aplicaciones futuras en una amplia variedad de campos que requieren ubicar y segmentar cualquier objeto en una imagen dada. Por ejemplo, comprender el contenido visual y textual de una página web es solo un ejemplo de cómo SAM podría integrarse en sistemas de IA más grandes para una comprensión multimodal general del mundo.