Clustering: Active-Active vs. Active-Passive

In den letzten Lektionen hast du gesehen, wie wichtig SPoF-Eliminierung (L3) und Load Balancing (L5) sind. Damit kommt natürlich die Frage: wie organisierst du mehrere Server, die zusammen einen Dienst bereitstellen? Die Antwort: Cluster. Mehrere Server werden zu einer logischen Einheit zusammengefasst, die nach außen wie ein einzelnes System wirkt.

Cluster gibt's in zwei Hauptvarianten: Active-Active (alle Server arbeiten gleichzeitig) und Active-Passive (einer arbeitet, einer wartet). Beide haben Berechtigung, beide haben Trade-offs. Diese Lektion erklärt die Unterschiede, die wichtigen Cluster-Konzepte (Quorum, Split Brain, Fencing) und zeigt typische Cluster-Software.

1) Was ist ein Cluster?

Ein Cluster ist ein Verbund mehrerer Server, die gemeinsam einen Dienst bereitstellen und sich gegenseitig überwachen. Wenn ein Server ausfällt, übernehmen die anderen. Aus Sicht des Clients ist das Cluster eine einzige logische Entität – meist über eine Virtual IP (VIP) oder einen DNS-Namen erreichbar.

Cluster werden für zwei Hauptzwecke eingesetzt:

Hochverfügbarkeit (HA): Ausfall eines Servers wird automatisch kompensiert. Endnutzer merken nichts.
Skalierbarkeit: Last wird auf mehrere Server verteilt, mehr Kapazität durch mehr Knoten.

Ob beides oder nur eines erreicht wird, hängt vom Cluster-Typ ab. Hier kommen Active-Active und Active-Passive ins Spiel.

2) Active-Active Cluster

Bei einem Active-Active Cluster arbeiten alle Knoten gleichzeitig. Jeder verarbeitet Requests, jeder trägt zur Gesamt-Leistung bei. Wenn einer ausfällt, übernehmen die anderen seine Arbeit zusätzlich:

Active-Active Cluster im Normalbetrieb

3-Node Active-Active Cluster

🌐

VIP / LB

→

🖥

Node 1

Active · 33%

🖥

Node 2

Active · 33%

🖥

Node 3

Active · 33%

Alle Knoten arbeiten · Gesamt-Kapazität 100% · Load Balancer verteilt

Active-Active nach Ausfall von Node 2

🌐

VIP / LB

→

🖥

Node 1

Active · 50%

💥

Node 2

DOWN

🖥

Node 3

Active · 50%

Node 2 fällt aus · Last verteilt sich auf 2 Knoten (je 50%) · Service läuft weiter

Wichtig: jeder Knoten muss in der Lage sein, einen Teil der Last zusätzlich zu schultern. Wenn dein Cluster 100% Kapazität bei 3 Knoten hat (je 33%), bedeutet 1 Ausfall, dass die verbleibenden 2 nun je 50% übernehmen müssen. Wenn sie das nicht können, gibt's eine Überlast-Kaskade.

3) Active-Passive Cluster

Bei Active-Passive arbeitet nur ein Knoten aktiv, der andere ist im Standby-Modus. Der Standby ist bereit, aber bedient keine Requests. Erst bei Ausfall des aktiven Knotens übernimmt der Standby:

Active-Passive Cluster im Normalbetrieb

Active-Passive (Failover-Cluster)

🌐

VIP

→

🖥

Node 1

Active · 100%

💤

Node 2

Standby · 0%

Node 1 bedient alle Anfragen · Node 2 wartet, bereit zu übernehmen

Active-Passive nach Failover

🌐

VIP

→

💥

Node 1

DOWN

🖥

Node 2

Active · 100%

Node 1 fällt aus → VIP wandert zu Node 2 → Node 2 übernimmt komplett

Der Standby-Knoten bekommt im Normalbetrieb keine Last – wirkt verschwenderisch. Vorteil: er hat die volle Reserve-Kapazität für den Failover-Fall. Bei Active-Active müssen die anderen Knoten Reserve haben, hier ist der ganze zweite Knoten Reserve. Mehr zum Failover-Prozess in L7.

4) Direkter Vergleich

Welche Variante ist besser? Es kommt drauf an. Hier die Trade-offs:

Active-Active vs. Active-Passive

⚡ Active-Active

alle Knoten arbeiten

Maximale Auslastung der Hardware, beste Skalierung. Ausfall = Last-Umverteilung. Erfordert: zustandslose Services oder gut verteilte Datenhaltung.

✓ volle Hardware-Nutzung
✓ bessere Skalierung
✓ keine „verschwendeten" Server
✓ schnellerer Failover (nur Lastumverteilung)

✗ komplexer (verteilte Zustände, Synchronisation)
✗ Risiko der Überlast bei Knoten-Ausfall
✗ Sticky Sessions schwierig

💤 Active-Passive

einer aktiv, einer wartet

Einfacher zu implementieren, kein verteilter Zustand nötig. Reserve-Knoten steht für den Notfall bereit. Wird auch Failover Cluster genannt.

✓ einfacher zu konfigurieren
✓ kein Daten-Konflikt möglich (single writer)
✓ volle Kapazität nach Failover
✓ klassische Architektur, gut verstanden

✗ Standby-Hardware ungenutzt (50% „verschwendet")
✗ Failover dauert (Sekunden bis Minuten)
✗ keine Skalierung über einen Knoten hinaus

Faustregel: für zustandslose Services (Web-Server, App-Server) Active-Active. Für zustandsbehaftete Services (klassische Datenbanken, Mail-Server, File-Server) oft Active-Passive – außer du nutzt explizit Multi-Master-Replikation.

5) Hybrid: N+M-Cluster

In der Praxis gibt's oft Mischformen. Zwei wichtige Beispiele:

N+1 Active-Passive: N aktive Knoten, 1 Standby für alle. Wenn einer der N ausfällt, übernimmt der Standby seine Rolle. Effizient bei vielen Knoten.
N×M Active-Active mit Übergewicht: alle Knoten aktiv, aber jeder ist nur zu 70% ausgelastet. Wenn einer ausfällt, übernehmen die anderen seine Last, ohne sich zu überlasten (70% + 30%/restliche = unter 100%).

Wichtig ist immer: planen für den Worst Case. Wenn Cluster A aktiv-aktiv mit 3 Knoten à 80% Last läuft und einer ausfällt, müssen die anderen je 120% schultern. Das geht nicht. Überdimensionierung ist Pflicht.

6) Cluster-Grundkonzepte: Heartbeat

Wie wissen die Knoten in einem Cluster voneinander, dass sie alive sind? Über den Heartbeat – ein periodischer „Lebenszeichen"-Mechanismus:

Zentrale Cluster-Konzepte

💓 Heartbeat

Jeder Knoten sendet regelmäßig (z.B. alle 1-2 Sek) ein „Ich lebe"-Signal an die anderen. Bleibt das Signal aus (Timeout, typisch 5-30 Sek), gilt der Knoten als ausgefallen. Heartbeats laufen über dedizierte Netzwerk-Verbindungen, oft sogar über mehrere Wege (Netzwerk + serielle Leitung).

🗳 Quorum

Bei Netzwerk-Problemen kann ein Cluster sich „aufspalten" – Knoten denken, die anderen sind tot, obwohl nur die Verbindung kaputt ist. Um zu vermeiden, dass beide Teilgruppen aktiv werden, gibt's das Quorum: nur die Mehrheit der Knoten darf weiterarbeiten. Bei 5 Knoten braucht's mindestens 3, bei 7 mindestens 4.

⚔ Split Brain

Das Horror-Szenario: durch Netzwerk-Probleme entstehen zwei isolierte Teil-Cluster, beide denken sie wären die einzigen und arbeiten weiter. Wenn Daten verändert werden, gibt's später Konflikte (verschiedene Versionen). Verhinderung durch Quorum und Fencing.

🛡 Fencing / STONITH

„Shoot The Other Node In The Head" – wenn ein Knoten als ausgefallen gilt, wird er physisch oder logisch abgeschaltet, bevor andere seine Rolle übernehmen. Verhindert dass er später unkoordiniert „wieder aufwacht" und Konflikte verursacht.

7) Quorum verstehen

Quorum ist eines der wichtigsten Konzepte verteilter Systeme. Schauen wir uns Szenarien an:

Quorum-Szenarien (5-Node-Cluster)

Szenario A: alle 5 Knoten online ✓ Quorum: 5/5

N1 ✓

N2 ✓

N3 ✓

N4 ✓

N5 ✓

Normalfall – alle stimmen überein, Cluster läuft.

Szenario B: 2 Knoten down ✓ Quorum: 3/5

N1 ✓

N2 ✓

N3 ✓

N4 ✗

N5 ✗

3 von 5 = Mehrheit → Cluster läuft. Bis zu zwei Ausfälle sind tolerierbar.

Szenario C: 3 Knoten down (kein Quorum) ✗ Quorum verloren

N1 ✓

N2 ✓

N3 ✗

N4 ✗

N5 ✗

Nur 2 von 5 → keine Mehrheit. Cluster geht in „Read-Only" oder schaltet sich ganz ab – um Split Brain zu verhindern.

Szenario D: Netzwerk-Partition ⚠ Split-Brain-Gefahr

N1 (Group A)

N2 (Group A)

N3 (Group B)

N4 (Group B)

N5 (Group B)

Netzwerk in zwei Hälften gespalten. Group A (2 Knoten) hat kein Quorum → bleibt passiv. Group B (3 Knoten) hat Quorum → arbeitet weiter. So wird Split Brain verhindert.

Deshalb haben Cluster meist eine ungerade Anzahl Knoten (3, 5, 7) – um Patt-Situationen zu vermeiden. Bei 2-Knoten-Clustern hilft ein Witness oder Quorum-Disk: ein zusätzlicher Schiedsrichter (z.B. eine geteilte Festplatte oder ein dritter Knoten), der die Mehrheit herstellt.

8) Shared Storage vs. Replicated Storage

Eine wichtige architektonische Entscheidung in Clustern: wo liegen die Daten?

Shared Storage (Shared-Nothing): zentrales Storage-System (SAN, NAS, Cluster-Filesystem wie GFS2, OCFS2), auf das alle Knoten zugreifen. Vorteil: einfache Konsistenz. Nachteil: Storage selbst ist ein SPoF, muss eigene HA haben.
Replicated Storage: jeder Knoten hat lokale Storage, Daten werden zwischen Knoten repliziert (DRBD, ZFS-Replikation, Datenbank-Replikation). Vorteil: kein zentraler SPoF. Nachteil: komplexer, Konsistenz-Herausforderungen.
Distributed Storage: Daten werden über alle Knoten verteilt und repliziert (Ceph, GlusterFS, MinIO). Beste Skalierung und HA, aber komplexeste Architektur.

Klassische Active-Passive-Cluster nutzen oft Shared Storage (z.B. SAN mit Multipath). Moderne Active-Active-Cluster nutzen oft Distributed Storage – bessere Skalierung, aber höhere Komplexität.

9) Cluster-Typen nach Anwendungsfall

Cluster gibt's für viele unterschiedliche Anwendungsfälle. Hier die wichtigsten Klassen:

Cluster-Typen im Überblick

HA-Cluster (Failover)

Klassischer Active-Passive für Datenbanken, Mail, File-Server. Tools: Pacemaker, Microsoft FCI.

Load-Balancing-Cluster

Active-Active für Web-Server, App-Server. Vor dem Cluster ein LB. Skalierung + HA.

DB-Replikations-Cluster

Master + ein oder mehrere Replicas. MySQL, PostgreSQL, MongoDB Replica Sets.

Multi-Master-DB

Echte Active-Active-DB. Galera Cluster, CockroachDB, Cassandra. Komplexer aber stärker skalierbar.

Hypervisor-Cluster

VMs können zwischen Hosts live-migrieren. VMware vSphere, Proxmox, Hyper-V Cluster.

Container-Orchestrierung

Kubernetes als Cluster-Manager für Container-Workloads. Hochgradig dynamisch.

HPC-Cluster

High-Performance Computing – Rechen-Cluster für wissenschaftliche Berechnungen. Andere Optimierungs-Ziele.

Storage-Cluster

Ceph, GlusterFS, MinIO. Verteilte Datei-/Objekt-Speicher.

10) Cluster-Software

Die wichtigsten Tools und Plattformen für Cluster-Management:

Cluster-Software-Landschaft

Pacemaker + Corosync

Open-Source-Cluster-Manager für Linux. Quasi-Standard für HA-Cluster.

Keepalived

VRRP-basierte HA. Häufig für LBs und einfache Failover-Setups.

Microsoft FCI

Failover Cluster Instance – HA für Windows-Server, SQL Server.

VMware HA / DRS

VM-Failover bei Host-Ausfall, automatische Lastverteilung.

Kubernetes

Container-Orchestrierung, Self-Healing, Auto-Scaling.

Galera Cluster

Multi-Master für MySQL/MariaDB.

Patroni

PostgreSQL HA mit etcd/Consul.

DRBD

Block-Level-Replikation zwischen Knoten – „RAID 1 übers Netzwerk".

11) Cluster-Aufbau: Pacemaker-Beispiel

So sieht ein einfaches Linux-Cluster mit Pacemaker aus. Zwei Knoten, ein Apache-Webserver soll als HA-Service laufen:

pacemaker-setup.shBash
1# Pacemaker und Corosync installieren
2sudo apt install pacemaker corosync pcs
3
4# Cluster initialisieren (auf einem Knoten)
5pcs cluster auth node1 node2 -u hacluster -p "PASSWORD"
6pcs cluster setup --name web_cluster node1 node2
7pcs cluster start --all
8
9# Virtual IP als Ressource definieren
10pcs resource create VirtualIP ocf:heartbeat:IPaddr2 \
11  ip=10.0.0.100 cidr_netmask=24 op monitor interval=30s
12
13# Apache als Ressource definieren
14pcs resource create WebServer ocf:heartbeat:apache \
15  configfile=/etc/apache2/apache2.conf op monitor interval=1min
16
17# Apache und VIP zusammen auf demselben Knoten halten
18pcs constraint colocation add WebServer with VirtualIP
19
20# Status anzeigen
21pcs status

Was hier passiert: Pacemaker verwaltet zwei Ressourcen – eine Virtual IP (10.0.0.100) und einen Apache-Webserver. Beide laufen auf einem Knoten. Wenn dieser ausfällt, wandert sowohl die VIP als auch der Apache automatisch auf den anderen. Endnutzer erreichen die App weiterhin unter der VIP.

12) Cluster-Setup im Schnellüberblick

Typische Schritte beim Aufbau eines HA-Clusters:

Hardware bereitstellen: identische Server, redundante Netzwerke (Heartbeat-Netz separat), ggf. Shared Storage
Cluster-Software installieren: Pacemaker, Keepalived, Microsoft FCI etc.
Heartbeat-Netzwerk konfigurieren: mindestens eine, besser zwei separate Verbindungen
Quorum konfigurieren: bei 2 Knoten Quorum-Disk oder Witness-Knoten
Fencing/STONITH einrichten: über IPMI, iLO, Power Distribution Unit
Ressourcen definieren: Apps, VIPs, Filesysteme, die im Cluster verwaltet werden
Constraints festlegen: welche Ressourcen müssen zusammen / dürfen nicht zusammen / Reihenfolge
Testen, testen, testen: Failover manuell auslösen, Netzwerk trennen, Reboots provozieren
Monitoring: in Prometheus/Nagios integrieren, Alerts bei Failover
Dokumentation: Runbooks für Failover, Recovery, Wartung

13) Häufige Cluster-Probleme

Cluster sind komplex, und es gibt klassische Fallstricke:

Split Brain durch fehlendes Quorum: 2-Knoten-Cluster ohne Witness → bei Netzwerk-Partition beide Knoten aktiv → Datenkonflikte
Heartbeat über produktives Netzwerk: bei Netzlast werden Heartbeats verzögert → fälschliche Failover
Kein Fencing konfiguriert: ausgefallener Knoten taucht wieder auf, übernimmt fälschlich Ressourcen → Konflikte
Asymmetrische Hardware: Standby ist schwächer als Active → kann nach Failover die Last nicht tragen
SPoF im Cluster selbst: gemeinsames Storage ohne Multipath, gleicher Stromkreis, gleicher Switch
Failover nie getestet: theoretisch konfiguriert, im Ernstfall funktioniert's nicht (siehe K58 L8)
Konfiguration-Drift: Knoten haben über die Zeit unterschiedliche Konfigurationen entwickelt → unklares Verhalten
App nicht cluster-aware: Anwendung speichert lokale Zustände, die beim Failover verloren gehen
Lange Failover-Zeiten: Cluster funktioniert, aber Failover dauert 5 Minuten → SLA verletzt
Mangelnde Dokumentation: nur der Original-Admin versteht das Setup → bei dessen Abwesenheit Probleme

Zusammenfassung

Cluster = Verbund mehrerer Server, die gemeinsam einen Dienst bereitstellen. Erreichbar über Virtual IP (VIP). Zwei Hauptvarianten: Active-Active (alle arbeiten, Lastverteilung, beste Skalierung, komplexer) und Active-Passive (einer aktiv, einer wartet, einfacher, „verschwendet" Hardware). Hybride Formen: N+1, N+M. Zentrale Konzepte: Heartbeat (Lebenszeichen zwischen Knoten), Quorum (Mehrheits-Prinzip, ungerade Knoten-Anzahl), Split Brain (Horror-Szenario bei Netzwerk-Partition), Fencing/STONITH (ausgefallener Knoten wird abgeschaltet). Storage-Modelle: Shared (SAN), Replicated (DRBD), Distributed (Ceph). Cluster-Typen: HA-Failover, Load-Balancing, DB-Replikation, Multi-Master-DB, Hypervisor (vSphere), Container (Kubernetes), HPC, Storage. Software: Pacemaker+Corosync, Keepalived, Microsoft FCI, VMware HA, Galera, Patroni, DRBD. Häufige Probleme: Split Brain, Heartbeat über prod Netz, kein Fencing, asymmetrische Hardware, Failover nie getestet, Config-Drift.

Clustering: Active-Active vs. Active-Passive

1) Was ist ein Cluster?

2) Active-Active Cluster

3) Active-Passive Cluster

4) Direkter Vergleich

5) Hybrid: N+M-Cluster

6) Cluster-Grundkonzepte: Heartbeat

7) Quorum verstehen

8) Shared Storage vs. Replicated Storage

9) Cluster-Typen nach Anwendungsfall

10) Cluster-Software

11) Cluster-Aufbau: Pacemaker-Beispiel

12) Cluster-Setup im Schnellüberblick

13) Häufige Cluster-Probleme

Zusammenfassung

Anmelden

Account Registrieren und Fortschritt Speichern!

Modal title