Estás leyendo la publicación: Investigadores de IA desarrollan un método de visión artificial para la segmentación de imágenes dicotómicas de alta precisión
Desde hace muchos años, los conjuntos de datos de visión artificial que son la base de muchos modelos de inteligencia artificial (IA) han proporcionado anotaciones precisas. Han sido lo suficientemente buenos para satisfacer las necesidades de los sistemas de máquinas perceptoras. Sin embargo, para permitir la interacción sensible entre humanos y máquinas y la vida virtual inmersiva, la IA ha llegado a una era en la que exige resultados exactos de los algoritmos de visión por computadora. Una de las técnicas de visión por computadora más fundamentales, la segmentación de imágenes, es esencial para ayudar a los robots a percibir y comprender el mundo exterior.
Para diversas aplicaciones, incluida la edición de imágenes, la reconstrucción 3D, la realidad aumentada (AR), el análisis de imágenes satelitales, el procesamiento de imágenes médicas y la manipulación de robots, puede ofrecer descripciones más precisas de los objetivos que la categorización de imágenes y la identificación de objetos. En función de cómo las aplicaciones mencionadas anteriormente influyen directamente en las cosas físicas, podemos clasificarlas como “ligeras” (como la edición y el análisis de imágenes) y “pesadas” (como los robots quirúrgicos y de fabricación).
Las aplicaciones “ligeras” pueden tolerar fallas de segmentación y desviaciones en mayor medida, ya que estos problemas aumentan principalmente los gastos de mano de obra y tiempo, a menudo dentro de lo razonable. Por el contrario, es más probable que las desviaciones o fallas en aplicaciones “pesadas” tengan repercusiones catastróficas, como daños físicos a objetos o lesiones que pueden ser letales para seres como personas y animales. Como resultado, los modelos para estas aplicaciones deben ser exactos y confiables. Debido a la precisión y solidez, la mayoría de los modelos de segmentación son aún menos apropiados en aplicaciones tan “pesadas”, lo que impide que los enfoques de segmentación desempeñen papeles cada vez más cruciales en aplicaciones más amplias.
Los investigadores se refieren a este trabajo como segmentación de imágenes dicotómicas (DIS), que intenta separar elementos extremadamente precisos de fotografías de la naturaleza. Su objetivo es manejar las aplicaciones “pesadas” y “ligeras” en un marco universal. Sin embargo, los desafíos de segmentación de imágenes existentes se concentran principalmente en segmentar objetos con cualidades particulares, como categorías llamativas, disimuladas, meticulosas o específicas. Dado que la mayoría de ellos utilizan los mismos formatos de entrada/salida y rara vez emplean técnicas exclusivas creadas explícitamente para segmentar objetivos en sus modelos, prácticamente todos los trabajos dependen del conjunto de datos.
En contraste con la segmentación semántica, la tarea DIS sugerida a menudo se concentra en imágenes con uno o más objetivos. Es más fácil obtener información más completa y precisa sobre cada objetivo. Como resultado, es muy alentador desarrollar una tarea DIS independiente de la categoría para segmentar con precisión objetos con diversas complejidades estructurales, independientemente de sus propiedades.
Los investigadores propusieron las siguientes contribuciones novedosas:
- 5470 fotos de alta resolución y máscaras de segmentación binaria exacta se combinan en DIS5K, un gran conjunto de datos DIS extensible
- Un punto de partida único, IS-Net, diseñado con supervisión intermedia, evita el ajuste excesivo en espacios de funciones de alta dimensión al requerir sincronización directa de funciones.
- Una métrica de esfuerzos de corrección humana (HCE) recientemente desarrollada cuenta las intervenciones humanas necesarias para corregir las áreas incorrectas.
- DIS benchmark se basa en el último DIS5K, lo que lo convierte en el análisis DIS más completo
El conjunto de datos se lanzará pronto junto con el modelo en el repositorio de GitHub que se menciona a continuación.
Este artículo está escrito como un artículo de resumen por el personal de Marktechpost basado en el trabajo de investigación ‘Segmentación de imágenes dicotómicas de alta precisión‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, github y proyecto.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools