Machine Learning

Redes Neuronales de Grafos: Una Introducción Práctica

Las redes neuronales de grafos llevan el aprendizaje profundo a los datos que viven sobre grafos. Esta guía explica el paso de mensajes, las arquitecturas que definieron el campo y qué predicen realmente las GNN.

12 Min de lectura Actualizado: Junio 2026 Nivel Intermedio
LGT
Learn Graph Theory Team
Expert Operations Research Engineers

1. ¿Qué es una Red Neuronal de Grafos?

Una red neuronal de grafos (GNN) es un modelo de aprendizaje profundo que opera directamente sobre grafos: datos formados por nodos (entidades) unidos por aristas (relaciones). Mientras que una red convolucional supone una rejilla regular de píxeles y una red recurrente supone una secuencia ordenada, una GNN no hace ninguna de esas suposiciones. Funciona sobre estructuras irregulares en las que cada nodo puede tener un número distinto de vecinos y no existe un orden natural que aprovechar.

Esto importa porque gran parte de los datos del mundo real son, por naturaleza, grafos: redes sociales, moléculas, grafos de conocimiento, redes de carreteras, redes de pagos y la propia web. Una GNN aprende una representación vectorial, llamada incrustación (embedding), para cada nodo, arista o grafo completo. Esa incrustación combina dos tipos de información a la vez: las características propias del nodo y la estructura del vecindario que lo rodea. Las incrustaciones alimentan después a un predictor para la tarea concreta.

El concepto se remonta a Gori et al. (2005) y a Scarselli et al. (2009), que presentaron "el modelo de red neuronal de grafos". Fue una idea de nicho hasta la ola del aprendizaje profundo: entre 2016 y 2019, un conjunto de arquitecturas, a saber GCN, GraphSAGE, GAT y GIN, hizo que las GNN fueran a la vez escalables y precisas, y hoy forman parte habitual de la caja de herramientas del machine learning. Para conocer las raíces de álgebra lineal de una de sus ramas, consulta nuestro artículo complementario sobre teoría espectral de grafos en machine learning.

2. La Idea Central: el Paso de Mensajes

Casi todas las GNN modernas siguen una única receta unificadora conocida como paso de mensajes (message passing), formalizada por Gilmer et al. (2017). La intuición es sorprendentemente simple. Cada nodo empieza con un vector de características. Luego, en cada capa, un nodo realiza tres pasos: recoge mensajes de sus vecinos, los agrega en un solo resumen y actualiza su propio vector usando ese resumen junto con su valor anterior.

Un nodo central v recibe mensajes de características de sus cuatro vecinos a lo largo de las aristas, los agrega y los combina con su propio vector anterior para calcular una incrustación actualizada.
Figura 1. Una ronda de paso de mensajes: un nodo reúne las características de sus vecinos, las agrega y actualiza su propia incrustación.

El paso de agregación tiene un requisito ineludible: debe ser invariante a permutaciones. Como un grafo no tiene un orden inherente, el resultado no puede depender de la secuencia en que se enumeren los vecinos. Las opciones habituales son la suma, la media o el máximo. El paso de actualización suele ser una pequeña red neuronal, una transformación lineal aprendida seguida de una no linealidad. Y algo crucial: todos los nodos de una capa comparten los mismos pesos, igual que una CNN reutiliza un filtro por toda la imagen. Esa compartición de pesos es lo que permite que una sola GNN entrenada generalice a todos los nodos de un grafo, e incluso a grafos que nunca ha visto.

Este ritmo de "vecinos y luego actualizar" es todo el motor. Una imagen mental útil es la de un rumor que se propaga entre una multitud: en cada ronda cada persona refina lo que sabe a partir de quienes tiene al lado, y tras unas pocas rondas las noticias lejanas han llegado a toda la sala. Una GNN simplemente hace que ese paso de actualización sea aprendible, de modo que la red descubre por sí misma qué señales del vecindario importan de verdad para la tarea.

3. Dentro de una Capa GNN (y Cuánta Profundidad Usar)

Formalmente, una sola capa calcula una nueva incrustación para cada nodo v como:

h_v⁽ᵏ⁾ = UPDATE( h_v⁽ᵏ⁻¹⁾, AGGREGATE{ h_u⁽ᵏ⁻¹⁾ : u ∈ N(v) } )

Aquí N(v) es el conjunto de vecinos de v y h_v⁽ᵏ⁾ es la incrustación de v tras k capas. El número de capas controla el campo receptivo. Tras una capa, un nodo solo ha escuchado a sus vecinos inmediatos. Tras dos capas ha escuchado indirectamente a los vecinos de sus vecinos, porque esos vecinos se habían actualizado a su vez a partir de sus vecinos en la ronda anterior. En general, k capas permiten que la información viaje k saltos por el grafo.

El mismo grafo pequeño mostrado dos veces: con una capa el nodo central v solo ve a sus vecinos directos A y B; con dos capas su campo receptivo se amplía para incluir a D y E, a dos saltos de distancia.
Figura 2. Cada capa adicional ensancha el campo receptivo de un nodo en un salto, así que la profundidad controla hasta dónde se propaga la información.

Esto podría sugerir que más profundo es siempre mejor, pero las GNN son peculiares en esto. Apilar demasiadas capas provoca sobrealisamiento (oversmoothing): la incrustación de cada nodo deriva hacia el mismo valor y la red pierde la capacidad de distinguir unos nodos de otros. En la práctica son habituales de dos a cuatro capas, y elegir la profundidad es una verdadera decisión de diseño y no un simple asunto de añadir capacidad.

4. Cuatro Arquitecturas que Marcaron el Campo

Cuatro modelos definieron la era moderna de las GNN. Comparten el esqueleto del paso de mensajes y difieren sobre todo en cómo agregan.

Conviene ver estas cuatro como puntos de partida y no como una lista cerrada. Decenas de variantes posteriores añaden conexiones residuales, compuertas, características de las aristas o muestreos más astutos, pero casi todas conservan el mismo núcleo de paso de mensajes. Entender GCN, GraphSAGE, GAT y GIN te da, por tanto, el vocabulario para leer y razonar sobre casi cualquier artículo moderno de GNN.

De un Vistazo: Cuatro Arquitecturas GNN Clave

ModeloAgregaciónIdea claveIdeal para
GCN (2017)Media normalizadaLínea base simple, de raíz espectralUn punto de partida rápido y fuerte
GraphSAGE (2017)Muestreo + media / máx / LSTMInductiva: funciona en nodos no vistosGrafos grandes y en crecimiento
GAT (2018)Ponderada por atenciónAprende qué vecinos importanVecindarios ruidosos o desiguales
GIN (2019)Suma (inyectiva)Máxima expresividad (límite WL)Clasificación a nivel de grafo

5. Qué Predicen las GNN: Tres Niveles

Una vez que una GNN ha producido incrustaciones, las predicciones se hacen en uno de tres niveles, y el mismo núcleo sirve para todos.

Tres paneles uno al lado del otro que muestran la clasificación a nivel de nodo con un nodo resaltado, la predicción de enlaces a nivel de arista con una arista ausente marcada con un signo de interrogación, y la clasificación a nivel de grafo asignando una etiqueta a todo el grafo.
Figura 3. Los tres niveles de predicción. Solo cambian la cabeza de salida final y las etiquetas de entrenamiento; el núcleo de paso de mensajes es el mismo.

Esa modularidad es parte de lo que hace tan versátiles a las GNN: cambia la cabeza de salida y las etiquetas, conserva el resto, y la misma arquitectura pasa de etiquetar usuarios a recomendar enlaces y a cribar moléculas.

Construye Primero el Grafo

Toda GNN parte de un grafo. Dibuja nodos y aristas, observa cómo se conectan los vecindarios y desarrolla la intuición en la que se apoya el paso de mensajes.

Abrir el Visualizador

6. Dónde se Usan las Redes Neuronales de Grafos

Las GNN han pasado rápidamente de los artículos de investigación a sistemas en producción que usan millones de personas a diario.

Lo que une a estos casos es una prueba simple: si tus datos se dibujan de forma más natural como una red de relaciones que como una tabla plana de filas, una GNN suele convertir esa estructura en una mejora de precisión medible. Esa situación es cada vez más frecuente, y es justo por eso que el aprendizaje sobre grafos se ha extendido tan rápido tanto en la industria como en las ciencias.

7. Retos, Herramientas y Cómo Empezar

Las GNN son potentes, pero no están exentas de dificultades. Más allá del sobrealisamiento, la escalabilidad es una restricción real: un grafo con miles de millones de aristas no cabe en memoria, y por eso se inventaron el muestreo de vecinos (GraphSAGE) y la partición de grafos. Otros retos activos de investigación incluyen el sobreestrujamiento (oversquashing, demasiada información forzada a pasar por una sola arista cuello de botella), el techo de expresividad que impone la prueba de Weisfeiler-Lehman, y el tratamiento de grafos dinámicos o heterogéneos cuyos nodos y aristas son de muchos tipos.

Empezar, por suerte, es sencillo gracias a bibliotecas maduras. PyTorch Geometric (PyG) y la Deep Graph Library (DGL) incluyen capas listas de GCN, GraphSAGE, GAT y GIN, conjuntos de datos de referencia y operaciones dispersas eficientes. Un buen primer proyecto es la clasificación de nodos en un grafo de citas como Cora, donde una GCN de dos capas escrita en unas pocas líneas ya supera a las líneas base clásicas. A partir de ese pequeño ejemplo, la misma caja de herramientas escala hasta las aplicaciones industriales anteriores.

Preguntas Frecuentes

¿Qué es una red neuronal de grafos en términos simples?

Una red neuronal de grafos es un modelo de aprendizaje profundo que se ejecuta directamente sobre grafos de nodos y aristas. Cada nodo reúne repetidamente información de sus vecinos y actualiza su propio vector, de modo que la representación final captura tanto las características del nodo como su lugar en la red.

¿Qué es el paso de mensajes en una GNN?

El paso de mensajes es el mecanismo central: en cada capa, cada nodo recoge mensajes de sus vecinos, los agrega con una función invariante a permutaciones como la suma o la media, y actualiza su incrustación con una pequeña red neuronal compartida. Apilar capas permite que la información viaje más lejos por el grafo.

¿Cuál es la diferencia entre GCN, GraphSAGE, GAT y GIN?

Difieren sobre todo en la agregación. GCN usa una media normalizada, GraphSAGE muestrea vecinos y es inductiva, GAT aprende pesos de atención para los vecinos y GIN usa un agregador de suma para alcanzar la máxima expresividad que permite la prueba de Weisfeiler-Lehman.

¿En qué se diferencian las GNN de las redes neuronales normales?

Las CNN suponen una rejilla fija y las RNN una secuencia ordenada. Las GNN no hacen esa suposición: manejan grafos irregulares y sin orden donde los nodos tienen distinto número de vecinos, y reutilizan los mismos pesos en todos los nodos, de modo que un modelo entrenado puede generalizar a grafos nuevos.

Exploración Adicional

De los Grafos a las Predicciones

Las redes neuronales de grafos empiezan donde empieza la teoría de grafos: con nodos y aristas. Construye y explora grafos de forma interactiva para asentar la intuición detrás de cada GNN.

Abrir el Visualizador