Investigadores de Georgia Tech proponen ‘LABOR’ (muestreo LAyer-neighBOR), un nuevo algoritmo de muestreo basado en aprendizaje automático

Estás leyendo la publicación: Investigadores de Georgia Tech proponen ‘LABOR’ (muestreo LAyer-neighBOR), un nuevo algoritmo de muestreo basado en aprendizaje automático

Los modelos de facto para el aprendizaje de representaciones en datos estructurados por grafos son redes neuronales gráficas (GNN). Como resultado, han comenzado a implementarse en los sistemas de producción. Estos modelos pasan mensajes a lo largo de la dirección de los bordes en el gráfico dado con no linealidades entre diferentes capas, actualizando las incrustaciones de nodos de forma iterativa. Las incrustaciones de nodos calculadas para las capas l incluyen detalles de la vecindad de salto l del vértice semilla. Los modelos GNN deben entrenarse en gráficos de escala de miles de millones para ser utilizados en producción. Incluso en sistemas distribuidos, entrenar estos modelos puede llevar días o incluso semanas. Aunque es más difícil en esta situación, el entrenamiento de minilotes en GNN es más efectivo que el uso de redes neuronales profundas (DNN) en general.

Los gráficos del mundo real suelen tener un diámetro mínimo. El fenómeno de explosión de la vecindad (NEP), también conocido como la vecindad l-hop, puede muy bien abarcar todo el gráfico si l es grande. Cuando hay l capas, esta dependencia abarca la vecindad de l-hop del nodo porque las incrustaciones de nodos en GNN dependen recursivamente del conjunto de incrustaciones de sus vecinos. Los investigadores sugirieron muestrear un subgrafo de la vecindad l-hop de los nodos del lote para abordar estos problemas. Los métodos basados ​​en nodos, basados ​​en capas y basados ​​en subgráficos son los tres tipos principales de estrategias. Las técnicas de muestreo basadas en nodos toman muestras iterativas separadas de cada nodo.

🔥 Recomendado:  Una guía de diferentes técnicas de mitigación de sesgos en el aprendizaje automático

Se descubrió que los métodos basados ​​en nodos muestrean subgráficos que son demasiado superficiales o con un número bajo de aristas a los nodos. Por lo tanto, se sugirieron técnicas de muestreo basadas en capas, en las que el muestreo se realiza colectivamente para cada capa. Por el contrario, los métodos de muestreo de subgráficos suelen utilizar el mismo subgráfico para todas las capas en lugar del esquema de muestreo recursivo capa por capa que se utiliza en los métodos de muestreo basados ​​en nodos y capas. Si bien algunas de estas técnicas de muestreo almacenan en caché incrustaciones históricas para reducir la varianza de las incrustaciones aproximadas estimadas, otras consideran las magnitudes de incrustación.

Existen técnicas para seleccionar vértices populares de un caché de vértices. La mayoría de estos métodos se pueden combinar con otros algoritmos de muestreo y son ortogonales. El NEP afecta más a los métodos de muestreo basados ​​en nodos. Aún así, garantizan una buena aproximación para cada incrustación al garantizar que cada vértice tenga k vecinos, el único hiperparámetro del algoritmo de muestreo, que minimiza el NEP. Debido a que el número de vértices muestreados es un hiperparámetro, los métodos de muestreo basados ​​en capas no sufren tanto por el NEP. Sin embargo, no pueden garantizar que cada aproximación de vértice sea suficiente, y es difícil razonar con sus hiperparámetros. El número de nodos para muestrear en cada capa depende drásticamente de la estructura del gráfico. Los métodos que utilizan el muestreo de subgráficos suelen tener niveles más altos de sesgo que sus equivalentes basados ​​en nodos y capas. Como resultado, se concentran en las técnicas de muestreo basadas en nodos y capas de este documento y combinan sus beneficios.

🔥 Recomendado:  Cómo hacer una copia de seguridad de la música del iPhone en la computadora

La siguiente es una lista de las principales contribuciones de este trabajo:

  • Utilizando Poisson Sampling, proponen un nuevo algoritmo llamado LABOR que combina los beneficios de los enfoques de muestreo de vecinos y capas. Como resultado de la correlación de las técnicas de muestreo de los nodos semilla dados, se logra una reducción significativa en el cálculo, la memoria y la comunicación para los vértices muestreados de varias semillas. Además, LABOR se puede usar como un reemplazo directo porque comparte los mismos hiperparámetros que el muestreo vecino.
  • Demuestran a través de la verificación experimental de sus resultados que su algoritmo de muestreo sugerido, LABOR, funciona mejor que los enfoques de muestreo de vecinos y muestreo de capas.

La implementación del código de este concepto se puede encontrar como una solicitud de incorporación de cambios pendiente a la famosa Biblioteca Deep Graph en GitHub.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘MUESTREO (LA)YER-NEIGH(BOR): DESACTIVAR LA EXPLOSIÓN VECINDARIA EN GNNS‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools