Machine Learning

Spektrale Graphentheorie im Machine Learning

Eigenwerte und Eigenvektoren verwandeln ein Gewirr aus Knoten und Kanten in Koordinaten, die ein Lernalgorithmus nutzen kann. Das ist die lineare Algebra hinter Clustering, Dimensionsreduktion und modernen Graph-Neuronalen-Netzen.

12 Min Lesezeit Aktualisiert: Juni 2026 Fortgeschrittenes Niveau
LGT
Learn Graph Theory Team
Expert Operations Research Engineers

1. Was ist Spektrale Graphentheorie?

Die spektrale Graphentheorie untersucht einen Graphen über die Eigenwerte und Eigenvektoren der Matrizen, die ihn darstellen. Anstatt einzeln über Knoten und Kanten nachzudenken, kodieren wir den gesamten Graphen als Matrix und lesen seine Struktur aus dem Spektrum dieser Matrix ab, ihrer Menge von Eigenwerten. Sie ist die Brücke, die diskrete, kombinatorische Objekte mit der kontinuierlichen, hoch entwickelten Maschinerie der linearen Algebra verbindet.

Genau diese Brücke ist für das Machine Learning entscheidend. Reale Daten sind überwiegend relational: soziale Netzwerke, Moleküle, Zitationsgraphen, Straßenkarten, die Pixel eines Bildes und das gemeinsame Auftreten von Wörtern. Die meisten Lernalgorithmen erwarten jedoch ordentliche numerische Vektoren als Eingabe. Spektrale Methoden lösen diese Spannung, indem sie einen Graphen in Koordinaten verwandeln, eine Geometrie, die man clustern, einbetten und in ein neuronales Netz einspeisen kann.

Das Gebiet hat tiefe Wurzeln in der reinen Mathematik (den Arbeiten von Fiedler, Chung und anderen), ist aber zu einem praktischen Werkzeugkasten geworden. Wie Daniel Spielman in seinen viel genutzten Yale-Vorlesungsnotizen schreibt, verrät das Spektrum, „wie gut ein Graph verbunden ist, ob er gute Cluster besitzt und wie Information durch ihn diffundiert“. Diese drei Fragen stehen im Zentrum des unüberwachten Lernens.

2. Vom Graphen zur Matrix: die Laplace-Matrix

Drei Matrizen beschreiben einen Graphen mit n Knoten. Die Adjazenzmatrix A trägt eine 1 im Eintrag (i, j), wenn eine Kante die Knoten i und j verbindet. Die Gradmatrix D ist diagonal und enthält den Grad jedes Knotens. Der Star ist die Laplace-Matrix des Graphen:

L = D − A

Die Laplace-Matrix ist symmetrisch und positiv semidefinit, jede ihrer Zeilen summiert sich zu null, und sie verhält sich wie eine diskrete Version des Laplace-Operators aus der Physik, sie misst, wie stark ein Signal auf dem Graphen von Knoten zu Nachbarknoten variiert. Diese Anschauung steckt in ihrer quadratischen Form xᵀLx = Σ (xᵢ − xⱼ)², summiert über jede Kante: klein, wenn verbundene Knoten ähnliche Werte teilen, groß, wenn sie sich unterscheiden.

Ein Graph aus zwei Dreiecken, die durch eine einzige Brückenkante verbunden sind, neben seiner 6×6-Laplace-Matrix, deren Diagonale die Knotengrade enthält und deren −1-Einträge außerhalb der Diagonale die Kanten markieren.
Abbildung 1. Ein kleiner Graph und seine Laplace-Matrix L = D − A. Die Diagonale speichert den Grad jedes Knotens; jede Kante steuert ein −1 außerhalb der Diagonale bei.

In der Praxis bevorzugt man meist eine normalisierte Laplace-Matrix, die für ungleiche Grade reskaliert. Die symmetrische Version ist L_sym = I − D^(−1/2) A D^(−1/2) und die Random-Walk-Version L_rw = I − D^(−1) A. Die Normalisierung verhindert, dass stark verbundene Knoten das Spektrum dominieren, und die meisten Machine-Learning-Rezepte, spektrales Clustering wie Graph-Neuronale-Netze, bauen auf diesen normalisierten Formen auf.

3. Das Spektrum des Graphen: Eigenwerte als Struktur

Da die Laplace-Matrix symmetrisch und positiv semidefinit ist, sind alle ihre Eigenwerte reell und nichtnegativ. Wir ordnen sie als 0 = λ₁ ≤ λ₂ ≤ … ≤ λₙ. Diese geordnete Liste ist das Spektrum des Graphen und erstaunlich aufschlussreich.

Ein Balkendiagramm der sechs Laplace-Eigenwerte 0, 0,44, 3, 3, 3 und 4,56, wobei der zweite Eigenwert als Fiedler-Wert hervorgehoben ist und eine sichtbare spektrale Lücke vor dem nächsten Eigenwert besteht.
Abbildung 2. Das Spektrum des Graphen aus Abbildung 1. Ein kleiner Fiedler-Wert (0,44) gefolgt von einem großen Sprung auf 3,0 ist die Signatur zweier lose verbundener Gemeinschaften.

Der Sprung von λ₂ zu λ₃ heißt spektrale Lücke, und eine große Lücke ist ein starker Hinweis darauf, dass der Graph eine saubere Clusterstruktur besitzt. Der zu λ₂ gehörende Eigenvektor, der Fiedler-Vektor, weist jedem Knoten eine Zahl zu, deren Vorzeichen angibt, auf welcher Seite des Schnitts er liegt. Die berühmte Cheeger-Ungleichung macht dies rigoros, indem sie den dünnsten Schnitt eines Graphen über λ₂ beschränkt. In einer einzigen Zahl beantwortet das Spektrum: Sind diese Daten ein Klumpen oder mehrere?

4. Spektrales Clustering

Spektrales Clustering ist die Vorzeigeanwendung im Machine Learning und folgt direkt aus dem vorigen Abschnitt. Das Rezept ist kurz:

  1. Baue aus deinen Daten einen Ähnlichkeitsgraphen, typischerweise einen k-nächste-Nachbarn-Graphen oder einen gaußschen (RBF-)Kern, der nahe Punkte verbindet.
  2. Bilde die normalisierte Laplace-Matrix und berechne ihre k kleinsten Eigenvektoren.
  3. Staple diese Eigenvektoren als Spalten, um jedem Punkt eine neue k-dimensionale Koordinate zu geben, die spektrale Einbettung.
  4. Führe das gewöhnliche k-Means in diesem eingebetteten Raum aus.
Der Zwei-Dreiecke-Graph mit seinen in zwei Cluster eingefärbten Knoten, daneben eine Zahlengerade, die jeden Knoten nach seinem Fiedler-Vektor-Wert platziert, wobei die beiden Cluster auf entgegengesetzten Seiten der Null liegen.
Abbildung 3. Der Fiedler-Vektor allein trennt den Graphen in zwei Cluster: Die Knoten A, B, C liegen auf der negativen Seite und D, E, F auf der positiven.

Warum der Aufwand, wenn k-Means doch schon existiert? Weil k-Means nur runde, konvexe Klumpen herausschneiden kann, während spektrales Clustering beliebig geformte Cluster wiederfinden kann, die klassischen „zwei ineinandergreifenden Monde“ oder konzentrischen Ringe, an denen k-Means völlig scheitert. Mathematisch ist es eine handhabbare Relaxation des Problems des normalisierten Schnitts, das in seiner exakten Form NP-schwer ist; die Eigenvektoren liefern die beste kontinuierliche Näherung. Bekannt wurde der Ansatz durch Shi und Maliks Normalized Cuts zur Bildsegmentierung (2000) und durch Ng, Jordan und Weiss (2002); Ulrike von Luxburgs Tutorial von 2007 bleibt der maßgebliche praktische Leitfaden.

Eine kanonische Demonstration ist der „Two Moons"-Datensatz, zwei ineinandergreifende Halbmondformen. Schlichtes k-Means zerschneidet ihn genau in der Mitte und scheitert, weil die Halbmonde nicht linear trennbar sind. Spektrales Clustering, das auf dem Nachbarschaftsgraphen arbeitet, folgt der Krümmung jedes Mondes und findet beide korrekt wieder. Derselbe Vorteil zeigt sich bei konzentrischen Kreisen und bei allen Daten, deren Cluster zusammenhängend, aber nicht kompakt sind.

Sieh das Spektrum in Aktion

Baue einen Graphen und beobachte, wie sich seine Laplace-Matrix, Eigenwerte und der Fiedler-Vektor live aktualisieren, und sieh genau, wie das Spektrum ein Netzwerk in Cluster teilt.

Visualisierung öffnen

5. Mannigfaltigkeitslernen und Laplace-Eigenmaps

Dieselben Eigenvektoren, die einen Graphen zerschneiden, können auch hochdimensionale Daten flachdrücken. Das ist die Idee hinter den Laplace-Eigenmaps, eingeführt von Mikhail Belkin und Partha Niyogi 2003. Die Prämisse, die Mannigfaltigkeitshypothese, besagt, dass reale hochdimensionale Daten (Gesichter, Handschrift, Genexpression) tatsächlich auf einer viel niedrigerdimensionalen, gekrümmten Fläche liegen, die in diesen Raum eingebettet ist.

Laplace-Eigenmaps gewinnen diese Fläche zurück, indem sie einen Nachbarschaftsgraphen bauen und dann niedrigdimensionale Koordinaten y wählen, die Σ wᵢⱼ ‖yᵢ − yⱼ‖² minimieren, sodass im ursprünglichen Raum nahe Punkte auch in der Einbettung nahe bleiben. Die Lösung sind wiederum die kleinsten nichttrivialen Eigenvektoren der Laplace-Matrix. Anders als die PCA, die nur lineare Projektionen findet, ist dies eine echt nichtlineare Dimensionsreduktion, eng verwandt mit Diffusionskarten und mit der spektralen Einbettung in scikit-learn. Sie ist ein Arbeitspferd für Visualisierung und für die Vorverarbeitung vor der Klassifikation.

Es lohnt sich, diese Methoden von t-SNE und UMAP, den beliebten Visualisierungswerkzeugen, abzugrenzen. Auch sie sind graphbasiert und im Geiste nachbarschaftserhaltend, optimieren aber ein probabilistisches Ziel, statt direkt nach Laplace-Eigenvektoren zu lösen. Laplace-Eigenmaps bleiben attraktiv, wenn man eine schnelle, deterministische Einbettung mit transparenter linear-algebraischer Deutung möchte.

6. Spektrale Graph-Neuronale-Netze

Die spektrale Graphentheorie ist auch das theoretische Fundament eines ganzen Zweigs des Deep Learning. Die Schlüsselidee ist die Graph-Fourier-Transformation: Ein auf den Knoten definiertes Signal auf die Eigenvektoren der Laplace-Matrix zu projizieren, spielt dieselbe Rolle wie die klassische Fourier-Transformation für Zeitreihen. Die Eigenwerte wirken als Frequenzen, und ein Graphsignal zu „filtern“ bedeutet, seine spektralen Komponenten neu zu gewichten.

Bruna und Kollegen definierten 2014 auf diese Weise die erste spektrale Faltung auf Graphen. Sie funktionierte, doch eine vollständige Eigenzerlegung kostet O(n³) und die Filter waren nicht lokalisiert. Zwei Verfeinerungen machten die Idee praktikabel:

Diese eine elegante Schicht, ein direkter Nachfahre der normalisierten Laplace-Matrix, treibt heutige GNN-Anwendungen in Empfehlungssystemen, Betrugserkennung, Verkehrsprognose sowie der Wirkstoff- und Materialentdeckung an.

Ein praktischer Vorbehalt: Ein rein spektraler Filter ist an einen einzigen festen Graphen gebunden, denn die Eigenvektoren ändern sich, sobald sich der Graph ändert. Deshalb hat sich ein großer Teil des Gebiets hin zu räumlichen Message-Passing-Netzen verlagert, die über Graphen unterschiedlicher Größe hinweg verallgemeinern. Dennoch bleibt die spektrale Sichtweise die klarste Linse, um zu verstehen, was eine Graphfaltung tatsächlich mit einem Signal macht.

7. Werkzeuge und wann man spektrale Methoden nutzt

Die lineare Algebra implementiert man selten von Hand. Ausgereifte, vertrauenswürdige Bibliotheken decken die gesamte Pipeline ab:

Einige Faustregeln: Arbeite stets mit der normalisierten Laplace-Matrix; nutze dünnbesetzte Eigenlöser und fordere nur die kleinsten benötigten Eigenvektoren an; und wähle die Clusterzahl mit der Eigenlücken-Heuristik, indem du den größten Sprung im sortierten Spektrum suchst. Greife zu spektralen Methoden, wenn deine Daten von Natur aus ein Graph sind, wenn Cluster nicht konvex sind oder wenn du eine fundierte niedrigdimensionale Einbettung brauchst. Sind die Cluster klar rund und die Daten bereits vektorisiert, ist schlichtes k-Means oft schneller und genauso gut. Die spektrale Graphentheorie ersetzt deinen Werkzeugkasten nicht, sie gibt ihm Geometrie.

Auf einen Blick: die Methode wählen

MethodeWas sie brauchtStärkeTypischer Einsatz
k-MeansMerkmalsvektorenEinfach und schnellRunde Cluster, schnelle Baselines
Spektrales ClusteringEin ÄhnlichkeitsgraphFindet nicht-konvexe ClusterCommunity-Erkennung, Bildsegmentierung
Laplace-EigenmapsEin NachbarschaftsgraphNichtlineare EinbettungVisualisierung, Vorverarbeitung
Spektrales GNN (GCN / ChebNet)Graph + KnotenmerkmaleLernt aus Struktur und MerkmalenKnotenklassifikation, Empfehlungen

Häufig gestellte Fragen

Was ist die Laplace-Matrix des Graphen einfach erklärt?

Die Laplace-Matrix ist die Matrix L = D − A, wobei D die Knotengrade auf der Diagonale enthält und A die Adjazenzmatrix ist. Sie misst, wie stark sich ein Signal von jedem Knoten zu seinen Nachbarn ändert, und ihre Eigenwerte und Eigenvektoren offenbaren die Konnektivität und Clusterstruktur des Graphen.

Warum ist der zweitkleinste Eigenwert (der Fiedler-Wert) wichtig?

Der Fiedler-Wert oder die algebraische Konnektivität misst, wie gut ein Graph verbunden ist. Ein Wert nahe null bedeutet, dass der Graph fast in zwei Komponenten zerfällt, und der zugehörige Fiedler-Vektor zeigt, wie dieser Schnitt zu legen ist, die Grundlage des spektralen Clusterings.

Wie unterscheidet sich spektrales Clustering von k-Means?

k-Means findet nur runde, konvexe Cluster im ursprünglichen Merkmalsraum. Spektrales Clustering bettet die Daten zunächst mit Laplace-Eigenvektoren neu ein und kann so beliebig geformte Cluster, etwa verschachtelte Ringe oder ineinander verschlungene Monde, wiederfinden, bevor k-Means in diesem neuen Raum angewendet wird.

Beruhen Graph-Neuronale-Netze auf spektraler Graphentheorie?

Spektrale GNNs schon. Die Graph-Fourier-Transformation nutzt Laplace-Eigenvektoren als Frequenzbasis; ChebNet nähert spektrale Filter durch Tschebyschow-Polynome an, und das populäre GCN von Kipf und Welling ist eine Vereinfachung erster Ordnung dieser spektralen Konstruktion.

Weitere Erkundungen

Verwandle Graphen in Geometrie

Über die Laplace-Matrix zu lesen ist eine Sache, zuzusehen, wie Eigenvektoren ein Netzwerk in Cluster schneiden, lässt es einrasten. Baue eigene Graphen und erkunde ihre Spektren interaktiv.

Visualisierung öffnen