Una investigación más reciente sobre aprendizaje automático aporta una explicación novedosa para el deterioro del rendimiento de las GNN de redes neuronales de gráficos más profundos

Estás leyendo la publicación: Una investigación más reciente sobre aprendizaje automático aporta una explicación novedosa para el deterioro del rendimiento de las GNN de redes neuronales de gráficos más profundos

Una herramienta esencial para analizar datos gráficos, como redes sociales, redes de transporte, redes moleculares, redes biológicas, redes de transacciones financieras, redes de citas académicas y gráficos de conocimiento, es la red neuronal gráfica (GNN). Al utilizar metodologías de aprendizaje profundo en gráficos, las GNN han ganado popularidad con un rendimiento de vanguardia. Una de ellas, las redes neuronales de paso de mensajes (MPNN), calcula las incrustaciones de nodos utilizando capas de paso de mensajes. Las redes neuronales convolucionales de gráficos (GNN), GraphSAGE, las redes de atención de gráficos y las redes neuronales de gráficos controlados son algunos ejemplos de MPNN.

La capa de paso de mensajes en un marco GNN recopila información de los vecinos locales de cada nodo y la transforma a través de una función de activación en la incrustación, como un perceptrón multicapa estándar (MLP) en el aprendizaje profundo. Al incorporar tramos adicionales del gráfico, la incrustación de un nodo puede agregar datos sobre N vecinos de salto en forma de N capas ocultas de paso de mensajes.

Aunque las redes neuronales sin gráficos se benefician con frecuencia de más capas, las GNN suelen funcionar mejor con solo 2 a 4 vecinos de salto o 2 a 4 capas ocultas. Por otro lado, el apilamiento profundo o el uso de más capas puede reducir significativamente el rendimiento de las GNN. El exceso de suavizado es una teoría de por qué sucede esto. La representación de los nodos será indetectable al aplicar continuamente convolución de gráficos sobre numerosas capas ocultas. Como resultado, el suavizado excesivo pone en peligro la efectividad de las GNN profundas.

🔥 Recomendado:  7 consejos para construir una fuerte cultura de aprecio

El subalcance es otra justificación. La propagación de información a través de nodos remotos en la red se vuelve desafiante porque es propensa a cuellos de botella cuando los GNN agregan mensajes a través de rutas largas. Debido a esto, los GNN luchan por anticipar los resultados de las tareas que requieren participación remota.

Estas restricciones han sido objeto de numerosas campañas. Se sugirió que DropEdge y DropNode eliminen aleatoriamente una cantidad específica de bordes o nodos del gráfico de entrada en cada época de entrenamiento para abordar el exceso de suavizado. Estas técnicas son comparables a Dropout, que evita el sobreajuste al eliminar aleatoriamente las neuronas ocultas de las redes neuronales. Por otro lado, el gráfico original se puede complementar con bordes virtuales, supernodos o bordes de acceso directo para abordar el subalcance. Sin embargo, todas las técnicas mencionadas anteriormente no tienen en cuenta la adición o eliminación en función de la información estructural del gráfico. En su lugar, se utiliza una selección puramente aleatoria para determinar qué nodos o bordes deben agregarse o eliminarse.

Sin embargo, la información presente en la red original se pierde con este método. Considere el caso de un nodo de origen que está vinculado a numerosos nodos de destino cercanos y cuyo bucle propio tiene un peso idéntico al del borde sin bucle vecino. Esto puede subestimar la importancia de este nodo. Sin embargo, dado que ambos bordes en el gráfico básico tienen el mismo peso, los GNN ordinarios los tratan por igual. Debido a esto, la capacidad de las capas de paso de mensajes para recopilar información estructural en GNN puede verse disminuida.

🔥 Recomendado:  Cómo romper el statu quo y asumir más riesgos en marketing

En una publicación publicada recientemente, los científicos de JP Morgan Chase Bank sugirieron una red neuronal gráfica mejorada en el borde (EEGNN) que combina la información de la estructura del borde en la capa de paso de mensajes para abordar este problema. El equipo primero postula que existe un multigrafo virtual con bucles automáticos y numerosos bordes entre nodos debajo del modelo de gráfico observado y que el modelo de gráfico observado puede considerarse como una transformación del multigrafo virtual. El modelo de gráfico de Poisson de mezcla de Dirichlet, un modelo no paramétrico bayesiano, fue propuesto por académicos para construir el multigrafo virtual que puede capturar la información estructural del borde.

Asignar un parámetro de sociabilidad a cada nodo permite modelar las interacciones entre nodos. A continuación, se utiliza una distribución de Poisson para generar los recuentos de aristas, siendo la tasa de Poisson el resultado de los parámetros de sociabilidad de los nodos en los dos extremos. Finalmente, utilizando la arquitectura EEGNN, los investigadores pueden sustituir el gráfico observado por el multigrafo virtual en un GNN. En esta arquitectura, las capas de paso de mensajes podrían otorgar pesos en función de la importancia de los bordes, transfiriendo información entre nodos de una manera más lógica. Los ensayos en varios conjuntos de datos reales mostraron que EEGNN podría aumentar la eficacia de las técnicas estándar de GNN.

Conclusión

Los investigadores de JP Morgan Chase Bank explicaron recientemente la disminución del rendimiento de los GNN más profundos utilizando una teoría única llamada simplificación errónea. Los investigadores propusieron un modelo de gráfico no paramétrico bayesiano llamado DMPGM y el marco de inferencia MCMC que lo acompaña. Los investigadores crearon un gráfico virtual reemplazando el gráfico simple original con los datos de DMPGM, luego utilizaron el gráfico virtual para agregar los datos del gráfico original. La investigación sienta una nueva base para el uso de datos obtenidos del modelado de gráficos estadísticos para impulsar el rendimiento de GNN. EEGNN simplemente agrega bordes virtuales al gráfico observado; no elimina bordes en base a información estructural, lo cual es una de las limitaciones de la propuesta. La creación de un marco que permita la adición y eliminación simultánea de bordes con información estructural se deja para futuras investigaciones.

🔥 Recomendado:  Cómo ganar dinero escribiendo un libro: ¡Más que solo ventas!

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘EEGNN: Redes neuronales de gráficos mejorados de borde‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools