Redes Neuronales de Grafos (GNN) Explicadas, Paso de Mensajes, GCN, GraphSAGE, GAT y GIN

LGT

Learn Graph Theory Team

Expert Operations Research Engineers

Tabla de Contenidos

1. ¿Qué es una Red Neuronal de Grafos?
2. La Idea Central: el Paso de Mensajes
3. Dentro de una Capa GNN (y Cuánta Profundidad Usar)
4. Cuatro Arquitecturas que Marcaron el Campo
5. Qué Predicen las GNN: Tres Niveles
6. Dónde se Usan las Redes Neuronales de Grafos
7. Retos, Herramientas y Cómo Empezar

1. ¿Qué es una Red Neuronal de Grafos?

Una red neuronal de grafos (GNN) es un modelo de aprendizaje profundo que opera directamente sobre grafos: datos formados por nodos (entidades) unidos por aristas (relaciones). Mientras que una red convolucional supone una rejilla regular de píxeles y una red recurrente supone una secuencia ordenada, una GNN no hace ninguna de esas suposiciones. Funciona sobre estructuras irregulares en las que cada nodo puede tener un número distinto de vecinos y no existe un orden natural que aprovechar.

Esto importa porque gran parte de los datos del mundo real son, por naturaleza, grafos: redes sociales, moléculas, grafos de conocimiento, redes de carreteras, redes de pagos y la propia web. Una GNN aprende una representación vectorial, llamada incrustación (embedding), para cada nodo, arista o grafo completo. Esa incrustación combina dos tipos de información a la vez: las características propias del nodo y la estructura del vecindario que lo rodea. Las incrustaciones alimentan después a un predictor para la tarea concreta.

El concepto se remonta a Gori et al. (2005) y a Scarselli et al. (2009), que presentaron "el modelo de red neuronal de grafos". Fue una idea de nicho hasta la ola del aprendizaje profundo: entre 2016 y 2019, un conjunto de arquitecturas, a saber GCN, GraphSAGE, GAT y GIN, hizo que las GNN fueran a la vez escalables y precisas, y hoy forman parte habitual de la caja de herramientas del machine learning. Para conocer las raíces de álgebra lineal de una de sus ramas, consulta nuestro artículo complementario sobre teoría espectral de grafos en machine learning.

2. La Idea Central: el Paso de Mensajes

Casi todas las GNN modernas siguen una única receta unificadora conocida como paso de mensajes (message passing), formalizada por Gilmer et al. (2017). La intuición es sorprendentemente simple. Cada nodo empieza con un vector de características. Luego, en cada capa, un nodo realiza tres pasos: recoge mensajes de sus vecinos, los agrega en un solo resumen y actualiza su propio vector usando ese resumen junto con su valor anterior.

Un nodo central v recibe mensajes de características de sus cuatro vecinos a lo largo de las aristas, los agrega y los combina con su propio vector anterior para calcular una incrustación actualizada. — Figura 1. Una ronda de paso de mensajes: un nodo reúne las características de sus vecinos, las agrega y actualiza su propia incrustación.

El paso de agregación tiene un requisito ineludible: debe ser invariante a permutaciones. Como un grafo no tiene un orden inherente, el resultado no puede depender de la secuencia en que se enumeren los vecinos. Las opciones habituales son la suma, la media o el máximo. El paso de actualización suele ser una pequeña red neuronal, una transformación lineal aprendida seguida de una no linealidad. Y algo crucial: todos los nodos de una capa comparten los mismos pesos, igual que una CNN reutiliza un filtro por toda la imagen. Esa compartición de pesos es lo que permite que una sola GNN entrenada generalice a todos los nodos de un grafo, e incluso a grafos que nunca ha visto.

Este ritmo de "vecinos y luego actualizar" es todo el motor. Una imagen mental útil es la de un rumor que se propaga entre una multitud: en cada ronda cada persona refina lo que sabe a partir de quienes tiene al lado, y tras unas pocas rondas las noticias lejanas han llegado a toda la sala. Una GNN simplemente hace que ese paso de actualización sea aprendible, de modo que la red descubre por sí misma qué señales del vecindario importan de verdad para la tarea.

3. Dentro de una Capa GNN (y Cuánta Profundidad Usar)

Formalmente, una sola capa calcula una nueva incrustación para cada nodo v como:

h_v⁽ᵏ⁾ = UPDATE( h_v⁽ᵏ⁻¹⁾, AGGREGATE{ h_u⁽ᵏ⁻¹⁾ : u ∈ N(v) } )

Aquí N(v) es el conjunto de vecinos de v y h_v⁽ᵏ⁾ es la incrustación de v tras k capas. El número de capas controla el campo receptivo. Tras una capa, un nodo solo ha escuchado a sus vecinos inmediatos. Tras dos capas ha escuchado indirectamente a los vecinos de sus vecinos, porque esos vecinos se habían actualizado a su vez a partir de sus vecinos en la ronda anterior. En general, k capas permiten que la información viaje k saltos por el grafo.

El mismo grafo pequeño mostrado dos veces: con una capa el nodo central v solo ve a sus vecinos directos A y B; con dos capas su campo receptivo se amplía para incluir a D y E, a dos saltos de distancia. — Figura 2. Cada capa adicional ensancha el campo receptivo de un nodo en un salto, así que la profundidad controla hasta dónde se propaga la información.

Esto podría sugerir que más profundo es siempre mejor, pero las GNN son peculiares en esto. Apilar demasiadas capas provoca sobrealisamiento (oversmoothing): la incrustación de cada nodo deriva hacia el mismo valor y la red pierde la capacidad de distinguir unos nodos de otros. En la práctica son habituales de dos a cuatro capas, y elegir la profundidad es una verdadera decisión de diseño y no un simple asunto de añadir capacidad.

4. Cuatro Arquitecturas que Marcaron el Campo

Cuatro modelos definieron la era moderna de las GNN. Comparten el esqueleto del paso de mensajes y difieren sobre todo en cómo agregan.

GCN (Kipf y Welling, 2017) agrega con una media de los vecinos normalizada por el grado. Es simple, rápida y una línea base notablemente fuerte, y surgió directamente de la teoría espectral de grafos.
GraphSAGE (Hamilton, Ying y Leskovec, 2017) muestrea un número fijo de vecinos y admite agregadores de media, máximo o LSTM. Su aporte clave es el aprendizaje inductivo: generaliza a nodos y grafos nunca vistos durante el entrenamiento, algo esencial a escala industrial.
GAT (Veličković et al., 2018) introduce la atención, aprendiendo un peso para cada vecino para que el modelo pueda centrarse en los más relevantes en vez de tratar a todos por igual.
GIN (Xu et al., 2019) se diseñó para ser lo más expresiva posible. Los autores demostraron que la capacidad de una GNN para distinguir grafos está acotada por la clásica prueba de Weisfeiler-Lehman, y que el agregador de suma inyectivo de GIN alcanza ese límite.

Conviene ver estas cuatro como puntos de partida y no como una lista cerrada. Decenas de variantes posteriores añaden conexiones residuales, compuertas, características de las aristas o muestreos más astutos, pero casi todas conservan el mismo núcleo de paso de mensajes. Entender GCN, GraphSAGE, GAT y GIN te da, por tanto, el vocabulario para leer y razonar sobre casi cualquier artículo moderno de GNN.

De un Vistazo: Cuatro Arquitecturas GNN Clave

Modelo	Agregación	Idea clave	Ideal para
GCN (2017)	Media normalizada	Línea base simple, de raíz espectral	Un punto de partida rápido y fuerte
GraphSAGE (2017)	Muestreo + media / máx / LSTM	Inductiva: funciona en nodos no vistos	Grafos grandes y en crecimiento
GAT (2018)	Ponderada por atención	Aprende qué vecinos importan	Vecindarios ruidosos o desiguales
GIN (2019)	Suma (inyectiva)	Máxima expresividad (límite WL)	Clasificación a nivel de grafo

5. Qué Predicen las GNN: Tres Niveles

Una vez que una GNN ha producido incrustaciones, las predicciones se hacen en uno de tres niveles, y el mismo núcleo sirve para todos.

Nivel de nodo: clasificar o puntuar nodos individuales, por ejemplo marcar una cuenta como fraudulenta o predecir los intereses de un usuario.
Nivel de arista (predicción de enlaces): predecir si debería existir una arista entre dos nodos. Es el motor de las sugerencias de amistades y las recomendaciones de productos.
Nivel de grafo: resumir un grafo entero en una sola predicción, como si una molécula es tóxica. Esto añade un paso de lectura (pooling) que combina todas las incrustaciones de los nodos en un único vector del grafo.

Tres paneles uno al lado del otro que muestran la clasificación a nivel de nodo con un nodo resaltado, la predicción de enlaces a nivel de arista con una arista ausente marcada con un signo de interrogación, y la clasificación a nivel de grafo asignando una etiqueta a todo el grafo. — Figura 3. Los tres niveles de predicción. Solo cambian la cabeza de salida final y las etiquetas de entrenamiento; el núcleo de paso de mensajes es el mismo.

Esa modularidad es parte de lo que hace tan versátiles a las GNN: cambia la cabeza de salida y las etiquetas, conserva el resto, y la misma arquitectura pasa de etiquetar usuarios a recomendar enlaces y a cribar moléculas.

Construye Primero el Grafo

Toda GNN parte de un grafo. Dibuja nodos y aristas, observa cómo se conectan los vecindarios y desarrolla la intuición en la que se apoya el paso de mensajes.

Abrir el Visualizador

6. Dónde se Usan las Redes Neuronales de Grafos

Las GNN han pasado rápidamente de los artículos de investigación a sistemas en producción que usan millones de personas a diario.

Recomendación: PinSage de Pinterest y sistemas afines ejecutan recomendaciones a escala web sobre miles de millones de elementos tratando a usuarios y contenidos como un único gran grafo.
Descubrimiento de fármacos y química: una molécula es literalmente un grafo de átomos (nodos) y enlaces (aristas), así que las GNN predicen propiedades moleculares, toxicidad y reacciones. Esa fue la motivación original de las redes de paso de mensajes.
Fraude y seguridad: los grafos de pagos y cuentas revelan redes coordinadas de abuso que las características aisladas por cuenta sencillamente no pueden ver.
Tráfico y logística: Google Maps ha usado GNN para mejorar sus predicciones de hora estimada de llegada en las redes de carreteras.
Ciencia e ingeniería: la simulación física, el razonamiento sobre grafos de conocimiento, la recomendación en comercio electrónico e incluso el diseño de chips se apoyan en el aprendizaje sobre grafos.

Lo que une a estos casos es una prueba simple: si tus datos se dibujan de forma más natural como una red de relaciones que como una tabla plana de filas, una GNN suele convertir esa estructura en una mejora de precisión medible. Esa situación es cada vez más frecuente, y es justo por eso que el aprendizaje sobre grafos se ha extendido tan rápido tanto en la industria como en las ciencias.

7. Retos, Herramientas y Cómo Empezar

Las GNN son potentes, pero no están exentas de dificultades. Más allá del sobrealisamiento, la escalabilidad es una restricción real: un grafo con miles de millones de aristas no cabe en memoria, y por eso se inventaron el muestreo de vecinos (GraphSAGE) y la partición de grafos. Otros retos activos de investigación incluyen el sobreestrujamiento (oversquashing, demasiada información forzada a pasar por una sola arista cuello de botella), el techo de expresividad que impone la prueba de Weisfeiler-Lehman, y el tratamiento de grafos dinámicos o heterogéneos cuyos nodos y aristas son de muchos tipos.

Empezar, por suerte, es sencillo gracias a bibliotecas maduras. PyTorch Geometric (PyG) y la Deep Graph Library (DGL) incluyen capas listas de GCN, GraphSAGE, GAT y GIN, conjuntos de datos de referencia y operaciones dispersas eficientes. Un buen primer proyecto es la clasificación de nodos en un grafo de citas como Cora, donde una GCN de dos capas escrita en unas pocas líneas ya supera a las líneas base clásicas. A partir de ese pequeño ejemplo, la misma caja de herramientas escala hasta las aplicaciones industriales anteriores.

Preguntas Frecuentes

¿Qué es una red neuronal de grafos en términos simples?

Una red neuronal de grafos es un modelo de aprendizaje profundo que se ejecuta directamente sobre grafos de nodos y aristas. Cada nodo reúne repetidamente información de sus vecinos y actualiza su propio vector, de modo que la representación final captura tanto las características del nodo como su lugar en la red.

¿Qué es el paso de mensajes en una GNN?

El paso de mensajes es el mecanismo central: en cada capa, cada nodo recoge mensajes de sus vecinos, los agrega con una función invariante a permutaciones como la suma o la media, y actualiza su incrustación con una pequeña red neuronal compartida. Apilar capas permite que la información viaje más lejos por el grafo.

¿Cuál es la diferencia entre GCN, GraphSAGE, GAT y GIN?

Difieren sobre todo en la agregación. GCN usa una media normalizada, GraphSAGE muestrea vecinos y es inductiva, GAT aprende pesos de atención para los vecinos y GIN usa un agregador de suma para alcanzar la máxima expresividad que permite la prueba de Weisfeiler-Lehman.

¿En qué se diferencian las GNN de las redes neuronales normales?

Las CNN suponen una rejilla fija y las RNN una secuencia ordenada. Las GNN no hacen esa suposición: manejan grafos irregulares y sin orden donde los nodos tienen distinto número de vecinos, y reutilizan los mismos pesos en todos los nodos, de modo que un modelo entrenado puede generalizar a grafos nuevos.

Redes Neuronales de Grafos: Una Introducción Práctica