Estás leyendo la publicación: Modelo SAM AI: la respuesta de Meta a Google y Amazon en la segmentación de objetos
La empresa matriz de Facebook, Meta, ha lanzado su modelo de IA llamado SAM: modelo Segmentar cualquier cosa. El modelo tiene como objetivo segmentar partes de una imagen y detectar objetos que nunca antes había visto.
El modelo puede hacer esto gracias al conjunto de datos “SA-1B”. Meta afirma que este es el conjunto de datos más extenso de su tipo hasta la fecha e incluye 1100 millones de máscaras de segmentación producidas por su modelo de segmentación y 11 millones de imágenes.
La segmentación de imágenes es una parte integral de las tecnologías y algoritmos de visión artificial. Las grandes tecnológicas como Google y Amazon también han estado trabajando en la visión por computadora desde hace un tiempo.
Google lanzó implementaciones de TPU de alto rendimiento de dos modelos de segmentación de última generación, Mask R-CNN (por ejemplo, segmentación) y DeepLab v3+ (para segmentación semántica) como código fuente abierto en 2019.
Amazon intentó aprender a segmentar imágenes sin datos de entrenamiento segmentados manualmente. Desarrollaron Box2Seg, que es un modelo de segmentación de instancias que predice máscaras de objetos y cuadros delimitadores en un solo paso.
El modelo utiliza una combinación de redes de propuesta de región (RPN) y redes neuronales convolucionales (CNN) para detectar y segmentar objetos en imágenes. Los RPN proponen regiones de objetos en la imagen y las CNN refinan las propuestas y predicen las máscaras de segmentación.
Los cuatro modelos han demostrado resultados impresionantes en conjuntos de datos de referencia y tienen sus propias fortalezas y debilidades. Box2Seg y Mask R-CNN son particularmente útiles cuando se requiere una localización precisa de objetos, mientras que SAM y DeepLab v3+ son más flexibles y se pueden usar para una gama más amplia de tareas de segmentación.
En resumen, si bien Amazon, Meta y Google están realizando investigaciones en el área de la segmentación en la visión por computadora, difieren en sus áreas de investigación y metodologías específicas. Amazon ha desarrollado modelos de segmentación de instancias y segmentación semántica, Meta ha desarrollado modelos de segmentación de objetos de propósito general y Google ha desarrollado una gama de técnicas de segmentación para segmentación semántica, de instancias y panóptica.
Un SAM, muchos casos de uso
Meta en su blog dijo que SAM es un modelo de segmentación generalizado, una mezcla de dos enfoques clásicos de segmentación: segmentación interactiva y automática.
Y la empresa afirmó que SAM puede realizar segmentación interactiva y segmentación automática con un indicador flexible, lo que permite una amplia gama de tareas de segmentación.
Uno de los posibles casos de uso subrayados por Meta es el uso de SAM en el dominio AR/VR, donde podría permitir seleccionar un objeto en función de la mirada del usuario y luego “levantarlo” en 3D.
Podría ser útil en cualquier campo que requiera encontrar y segmentar objetos, por ejemplo, microscopía celular, sin necesidad de capacitación adicional. También podría ser útil para estudios científicos y creación de contenido.
SAM ha aprendido una noción general de lo que son los objetos y puede generar máscaras para cualquier objeto en cualquier imagen o video, incluso incluyendo objetos y tipos de imágenes que no haya encontrado durante el entrenamiento.
Este anuncio también es una señal de que Meta no iba a dejar pasar a sus competidores en la carrera de la IA.
Si bien Meta ha tocado una cuerda cuando se trata de una cantidad significativa de investigación sobre inteligencia artificial y ciertos avances, ha estado luchando para integrarlos en sus productos como Instagram y Facebook. La compañía se alejó de Metaverse para dirigir su enfoque completo en la IA generativa.
En consecuencia, Zuckerberg anunció un nuevo grupo de productos en Meta que está trabajando en productos de IA para Instagram, WhatsApp.
Según una publicación en Facebook del CEO Mark Zuckerberg, varios equipos dentro de Meta se fusionarán para formar una nueva unidad, que estará encabezada por el actual Director de Producto, Chris Cox.
El objetivo de esta unidad es desarrollar herramientas innovadoras y comunicativas para ser utilizadas en los productos de Meta.