Investigadores de Apple ML proponen un método autosupervisado para aprender representaciones de ubicaciones geográficas a partir de trayectorias GPS sin etiquetar para resolver tareas de visión artificial geoespacial aguas abajo

Estás leyendo la publicación: Investigadores de Apple ML proponen un método autosupervisado para aprender representaciones de ubicaciones geográficas a partir de trayectorias GPS sin etiquetar para resolver tareas de visión artificial geoespacial aguas abajo

Los gráficos son estructuras de datos fundamentales en muchos campos que abarcan amplias aplicaciones, ya sean sistemas de recomendación, comunicación, redes sociales o biológicas. Las redes de carreteras, las nubes de puntos y los modelos de objetos 3D son algunos ejemplos de información geoespacial que se puede representar orgánicamente como gráficos con nodos y bordes naturales. Para el análisis de gráficos, los algoritmos de aprendizaje automático necesitan representaciones de vectores de características de los nodos, los bordes, las subestructuras o el gráfico completo. Las técnicas recientes se han concentrado en el aprendizaje automático de representaciones vectoriales de características de baja dimensión de gráficos (incrustaciones de gráficos) y sus partes constituyentes en lugar de crear manualmente características específicas de tareas y dominios (por ejemplo, incrustaciones de nodos).

Una idea clave en la teoría de grafos es la accesibilidad de un nodo a otro. El aprendizaje autosupervisado (SSL), un tema de estudio en curso, ha demostrado resultados prometedores en las aplicaciones de visión artificial y procesamiento del lenguaje natural (NLP). SSL emplea con frecuencia tareas de pretexto predeterminadas para generar señales de supervisión directamente a partir de datos no etiquetados mediante el entrenamiento de redes neuronales para anticipar secciones ocultas o atributos de entradas, evitando el requisito de conjuntos de datos etiquetados, limpios y masivos, que son costosos de preparar en términos de tiempo y dinero. . SSL tiene como objetivo aprender representaciones de datos semánticamente significativas e independientes de la tarea que pueden usarse como entradas para modelos específicos de tareas posteriores (generalmente supervisados).

🔥 Recomendado:  Los especialistas en marketing planean aumentar las inversiones en SEO este año, según un informe

Para las aplicaciones de NLP, las incrustaciones de palabras independientes del contexto, relevantes para el contexto y independientes de la tarea se han aprendido mediante SSL. Las técnicas SSL más comunes para aprender representaciones visuales se pueden dividir en dos categorías: enfoques generativos que aprenden representaciones mientras generan imágenes modelando la distribución de datos, y enfoques discriminativos que usan tareas de pretexto diseñadas para producir etiquetas para entradas rápidamente (por ejemplo, basadas en sobre heurística – o aprendizaje contrastivo), junto con un objetivo supervisado.

Los enfoques de aprendizaje de representación autosupervisados ​​utilizan grandes conjuntos de datos sin anotaciones semánticas para aprender características universales que se pueden transferir fácilmente para realizar una variedad de tareas supervisadas posteriores. Con el fin de completar las tareas de visión artificial geoespacial en el futuro, proponen en este estudio un enfoque autosupervisado para aprender representaciones de lugares geográficos utilizando trayectorias GPS sin etiquetar. Las representaciones de trama de la superficie de la tierra dan como resultado mosaicos que pueden caracterizarse como nodos de red o píxeles de imagen. En estos nodos, las trayectorias GPS se describen como rutas markovianas permisibles.

Describen una técnica distribuida y escalable para calcular resúmenes de accesibilidad. Los resúmenes de accesibilidad para cada mosaico se comprimen en representaciones conocidas como incrustaciones de accesibilidad, que se le enseña a aprender a un codificador automático convolucional y contractivo. Estas son representaciones de tensor similares a imágenes de los patrones de conectividad espacial entre mosaicos y sus vecinos inferidos por las rutas markovianas observadas. Como representaciones de características independientes de tareas de lugares geográficos, las incrustaciones de accesibilidad son útiles.

🔥 Recomendado:  Investigadores de la UCI proponen un nuevo modelo matemático que puede mejorar el rendimiento al combinar predicciones humanas y algorítmicas y puntajes de confianza

Los patrones de conexión espacial entre mosaicos y sus vecinos sugeridos por las rutas markovianas observadas se calculan utilizando un enfoque escalable y distribuido para proporcionar resúmenes de accesibilidad, que son representaciones de tensor similares a imágenes. Para aprender representaciones comprimidas de los resúmenes de accesibilidad para cada mosaico, se entrena un codificador automático convolucional y contractivo. Como representaciones de características independientes de tareas de lugares geográficos, se utilizan incrustaciones de accesibilidad.

El problema de la alineación y la fusión en el aprendizaje multimodal se aborda mediante la invención de incrustaciones de accesibilidad como representaciones de píxeles. En comparación con los modelos unimodales para las mismas tareas, el modelado multimodal de tres tareas geoespaciales descendentes separadas que incluyen datos de gráficos de redes de carreteras, trayectorias de movilidad e imágenes satelitales da como resultado ganancias de rendimiento del 2 al 4 por ciento.

Las incorporaciones de accesibilidad están destinadas a respaldar el aprendizaje multimodal en la visión informática geoespacial mediante la transformación de datos de trayectoria de movimiento espaciotemporal secuencial en representaciones de tensor similares a imágenes semánticamente significativas que se pueden combinar con otras modalidades de datos que son (por ejemplo, imágenes satelitales) o se pueden transformar ( ej., gráfico de red de carreteras, imágenes SAR).

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Embebidos de accesibilidad: aprendizaje de representación autosupervisada escalable a partir de trayectorias de movilidad para visión computacional geoespacial multimodal‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools