Failover: automatisch und manuell

In L6 hast du gelernt was Cluster sind. Beim Active-Passive-Modell und auch zwischen Standorten muss aber etwas Konkretes passieren, wenn der aktive Knoten ausfällt: ein Failover. Das ist der eigentliche „magische" Moment, in dem die Standby-Komponente übernimmt – und genau hier scheitern viele Setups in der Praxis.

Diese Lektion erklärt was beim Failover passiert: wie Ausfälle erkannt werden, wie die Übernahme abläuft, wie automatisch und manuell gesteuerte Failover sich unterscheiden, und was beim Failback (Rückfall auf den ursprünglichen Knoten) zu beachten ist. Ein gut funktionierender Failover ist der Unterschied zwischen „HA-Cluster auf dem Papier" und „echte Hochverfügbarkeit".

1) Was ist Failover?

Failover bezeichnet die automatische oder manuelle Übernahme der Aufgaben eines ausgefallenen Systems durch ein anderes. Das Ziel: minimale Unterbrechung der Service-Bereitstellung für die Endnutzer.

Failover findet auf vielen Ebenen statt – jede Lektion vorher hat eine Form davon angeschnitten:

Stromversorgung: USV/Aggregat übernimmt bei Netzausfall (L4)
Festplatte: RAID übernimmt bei Defekt (K57)
Server: Cluster-Manager schaltet auf Standby um (L6)
Load Balancer: schaltet bei Ausfall einzelner Backends (L5)
Rechenzentrum: DR-Site übernimmt komplette Workloads

Egal auf welcher Ebene – die Mechanik ist immer ähnlich: Erkennen → Entscheiden → Umschalten → Verifizieren.

2) Die Phasen eines Failovers

Jeder Failover-Prozess durchläuft typische Phasen. Hier am Beispiel eines DB-Server-Failovers:

Failover-Workflow Phase für Phase

Detection – Ausfall erkennen

Heartbeat des primären Servers bleibt aus (typisch 3-5 Sekunden ohne Antwort), oder Health-Check schlägt fehl. Cluster-Manager registriert das Problem.

3-10 Sek

Verification – Fehler bestätigen

Nicht jeder verpasste Heartbeat ist ein echter Ausfall. Der Manager wartet auf mehrere Versuche und prüft über alternative Kanäle (z.B. mehrere Netzwerk-Wege).

3-15 Sek

Decision – Failover entscheiden

Quorum prüfen: ist die Mehrheit einig dass der primäre Knoten down ist? Welcher Standby ist bereit? Bei automatischem Failover schnelle Entscheidung, bei manuellem wartet auf Admin-Bestätigung.

1-5 Sek

Fencing – primären Knoten isolieren

STONITH (Shoot The Other Node In The Head): der ausgefallene Knoten wird via IPMI, iLO oder Power-Distribution-Unit gezwungen, definitiv offline zu gehen. Verhindert dass er später Konflikte verursacht.

5-30 Sek

Resource Migration – Übernahme der Aufgaben

Standby übernimmt: Virtual IP wandert (ARP-Update im Netzwerk), Filesystem wird gemountet, Datenbank wird zum Master befördert, Service-Prozesse starten.

5 Sek - 5 Min

Application Recovery

Die Anwendung initialisiert sich auf dem neuen Knoten: Caches werden aufgebaut, Connections re-etabliert, ggf. Crash-Recovery bei Datenbanken.

5 Sek - 2 Min

Verification – Service verfügbar?

Smoke-Tests gegen den neuen aktiven Knoten: kann er Anfragen beantworten? Stimmen die Daten? Erst dann wird der Failover als „abgeschlossen" markiert.

2-30 Sek

Notification – Team benachrichtigen

Alarme an Admins, Ticketsystem, Monitoring-Dashboards. Auch bei automatischem Failover muss das Team informiert sein, damit der ausgefallene Knoten untersucht und repariert werden kann.

sofort

Gesamt-Failover-Zeit: typisch 30 Sekunden bis 5 Minuten, je nach Komplexität. Bei sehr gut optimierten Systemen unter 10 Sekunden möglich. Bei Datenbanken mit langer Crash-Recovery auch 10+ Minuten. Diese Zeit ist dein realer RTO.

3) Automatisches vs. manuelles Failover

Die zentrale Designentscheidung: soll der Failover automatisch oder erst nach Mensch-Entscheidung passieren? Beide Modelle haben Berechtigung:

Automatisches vs. manuelles Failover

🤖 Automatisches Failover

Das System entscheidet selbst und schaltet ohne menschliches Eingreifen um. Cluster-Software übernimmt vollständig.

✓ Sekunden bis Minuten Failover-Zeit
✓ 24/7 ohne On-Call-Wartezeit
✓ konsistent und vorhersehbar

✗ Risiko von Fehl-Failovers (kurze Netz-Hänger)
✗ schwerer zu kontrollieren
✗ kann Split-Brain-Risiko erhöhen

👤 Manuelles Failover

Admin entscheidet bewusst über Failover, oft per Knopfdruck oder Kommando. System bleibt in „kaputtem" Zustand bis Mensch handelt.

✓ kein versehentlicher Failover
✓ Mensch kann komplexe Situation bewerten
✓ Wartungsfenster kontrolliert nutzbar

✗ Failover-Zeit hängt von Reaktion ab
✗ On-Call-Personal nötig
✗ Faktor Mensch (Fehlerquelle)

In der Praxis oft kombiniert: einfache Ausfälle automatisch, komplexe oder zweideutige Situationen manuell. Beispiel: ein Server-Crash → automatischer Failover. Aber: eine Datenbank-Korruption → erst nach Admin-Entscheidung, weil das automatische Failover die Korruption auf den Standby übertragen würde.

4) Wann automatisch, wann manuell?

Faustregeln für die Entscheidung:

Automatisches Failover sinnvoll wenn:

Niedriger RTO gefordert (Sekunden bis wenige Minuten)
System ist gut verstanden und getestet
Fehler-Erkennung ist zuverlässig (klares Ja/Nein)
Failover-Mechanismus ist idempotent und sicher
Service ist zustandslos oder zustandsbehaftet mit guter Replikation

Manuelles Failover sinnvoll wenn:

Hoher RTO akzeptabel (Stunden)
Komplexe Fehler-Situationen möglich
Datenkonsistenz wichtiger als Verfügbarkeit
Geo-Failover zwischen Rechenzentren (große Entscheidung)
Service ist zustandsbehaftet ohne automatische Replikation

Beispiele: Webserver-Cluster → automatischer Failover (einfach, schnell, zustandslos). Datenbank-Cluster zwischen Rechenzentren → oft manueller Failover (Datenkonsistenz, Bandbreiten-Kosten, Komplexität).

5) Detection-Methoden

Wie wird ein Ausfall überhaupt erkannt? Es gibt mehrere Mechanismen, die oft kombiniert werden:

Methoden zur Ausfall-Erkennung

💓 Heartbeat

Knoten senden sich regelmäßig „Ich lebe"-Pakete. Bleibt das aus, gilt der Knoten als ausgefallen. Klassisch in Cluster-Software (Pacemaker, Keepalived). Wichtig: über dedizierte Verbindung, nicht das Produktiv-Netzwerk.

Alle 1-2 Sek, Timeout 5-10 Sek

🩺 Service Health Check

Aktive Anfragen an den Service-Port. „Antwortet HTTP/MySQL/SSH auf TCP-Verbindung?" Liefert genauere Aussage als reiner Heartbeat – der Server kann „leben", aber der Dienst kaputt sein.

curl http://server/health alle 5 Sek

📊 Resource Monitoring

CPU, RAM, Disk, Connection-Pool werden überwacht. Bei kritischen Schwellen (z.B. 95% CPU für 60 Sek) automatischer Failover. Auch „graue" Ausfälle erkennbar (langsam ist auch schlimm).

Prometheus + Alertmanager

🔍 Synthetic Probing

Von extern (z.B. anderes Rechenzentrum) wird der Service getestet, simuliert eine echte User-Anfrage. Beste Erkennung von „User-relevanten" Ausfällen.

Externer Healthcheck-Anbieter

📡 Application Self-Reporting

Die App selbst meldet ihren Zustand. Beispiel: PostgreSQL meldet „Replikation ausgefallen" → Failover-Trigger. Mehr Genauigkeit, aber abhängig davon dass die App noch genug funktioniert um zu melden.

SELECT pg_is_in_recovery();

Best Practice: mehrere Methoden kombinieren. Heartbeat erkennt totale Knoten-Ausfälle, Health Check erkennt Service-Ausfälle, Resource Monitoring erkennt schleichende Probleme. Nur durch Kombination werden alle Ausfall-Klassen erfasst.

6) Failover-Auslöser

Was kann einen Failover triggern?

Hardware-Ausfall: Server stürzt komplett ab
Software-Crash: Anwendung beendet sich unerwartet
Hängender Service: keine Reaktion auf Health-Checks
Netzwerk-Ausfall: Knoten nicht mehr erreichbar
Resource-Erschöpfung: CPU 100%, RAM voll, Disk voll
Datenbank-Replikations-Lag: Replikation hängt zu weit zurück
Geplante Wartung: manuell ausgelöster Failover für Updates
Lasttest: bewusste DR-Übung

Wichtig: nicht alle dieser Auslöser sollten automatisch Failover triggern. Bei Resource-Erschöpfung etwa wandert das Problem oft mit zum Standby – besser ist Skalierung oder Last-Reduktion.

7) Failback – die Rückkehr

Wenn der primäre Knoten repariert ist, kommt die Frage: wandert die Last zurück? Das ist das Failback. Zwei Strategien:

Failback-Strategien

Phase 1: Normalbetrieb

🖥

Primary

Active

💤

Standby

Passive

Phase 2: Failover (Primary ausgefallen)

💥

Primary

DOWN

🖥

Standby

Active!

Phase 3: Primary repariert → Failback

🖥

Primary

Active wieder

←

💤

Standby

zurück passive

Zwei Strategien für Failback: automatisch (sobald primary wieder bereit, automatisch zurückwechseln) oder manuell (Admin entscheidet wann gewechselt wird, oft in Wartungsfenster). Vorteil manuell: nicht zweimal Downtime in kurzer Zeit. Nachteil: erfordert menschliche Aktion. Die meisten produktiven Systeme nutzen manuelles Failback.

Wichtig: Failback ist nicht trivial. Während der Standby aktiv war, sind dort Daten verändert worden. Bevor primary wieder Active werden kann, müssen diese Änderungen erst zurück-repliziert werden. Sonst gibt's Datenverlust.

8) DNS-basiertes Failover

Eine spezielle Form: DNS-Failover. Beim Ausfall wird die DNS-Auflösung geändert, sodass User auf einen anderen Server geleitet werden:

DNS-Failover-Mechanik

1️⃣

Normalbetrieb: DNS-Eintrag app.example.com → 10.0.1.100 (primary). User connecten dort.

2️⃣

Health-Check schlägt fehl: DNS-Anbieter prüft regelmäßig, ob primary noch lebt. Erkennt Ausfall.

3️⃣

DNS-Eintrag ändert: app.example.com → 10.0.2.100 (Standby). Neue DNS-Anfragen bekommen neue IP.

4️⃣

Cache-Problem: alte DNS-Antworten werden gecacht (TTL!). User mit gecachten Daten bleiben bei alter IP. Daher kurze TTL (z.B. 60 Sek) bei DNS-Failover.

5️⃣

Convergenz: nach TTL-Ablauf gehen alle User zur neuen IP. Failover-Zeit = TTL + Detection-Zeit.

DNS-Failover wird oft für cross-region oder cross-datacenter-Setups verwendet. Anbieter: AWS Route 53 (mit Health Checks), Cloudflare, NS1. Nachteil: TTL-Caching macht's langsam (typisch 1-5 Minuten Failover-Zeit). Vorteil: funktioniert über das Internet hinweg, kein Netzwerk-Trick nötig.

9) VIP-Failover (Floating IP)

Für lokale HA-Cluster gibt's eine elegantere Methode als DNS: die Virtual IP (VIP). Eine IP-Adresse, die zwischen Knoten wandern kann. Realisiert über das VRRP-Protokoll oder ähnliche Mechanismen:

keepalived.confConf

1# Keepalived-Konfiguration für VIP-Failover
2# Auf Master-Knoten:
3vrrp_instance VI_1 {
4    state MASTER
5    interface eth0
6    virtual_router_id 51
7    priority 110           # Master hat höhere Prio
8    advert_int 1           # Heartbeat jede Sekunde
9    authentication {
10        auth_type PASS
11        auth_pass "secret123"
12    }
13    virtual_ipaddress {
14        10.0.0.100/24      # die VIP
15    }
16}
17
18# Auf Backup-Knoten: gleiche Config, aber state BACKUP, priority 100

Funktionsweise: Master und Backup tauschen via VRRP Heartbeats aus. Master „besitzt" die VIP, antwortet auf ARP-Anfragen für sie. Fällt der Master aus, übernimmt Backup die VIP – User merken nichts. Failover in 3-5 Sekunden.

10) Failover-Zeiten verschiedener Technologien

Wie schnell ist Failover in der Praxis? Hier eine Übersicht:

Typische Failover-Zeiten

Failover-Typ

Mechanik

Typische Zeit

Active-Active LB

Health-Check entfernt ausgefallenen Backend

< 5 Sek

VRRP / Keepalived

VIP wandert zum Standby-Knoten

3-10 Sek

Web-Server-Cluster

Apache/nginx-Cluster mit Pacemaker

10-30 Sek

Datenbank-Replikation

Standby zur Master befördern + Apps reconnect

30 Sek - 2 Min

VMware HA

VM auf anderem Host neu starten

1-3 Min

DNS-Failover

TTL-abhängig, dann Re-Resolution

1-5 Min

Geo-DR-Failover

Manuell zwischen Rechenzentren

15 Min - 4 Std

Bare-Metal-Restore

Aus Backup auf neue Hardware

2-12 Std

Die Failover-Zeit ist dein effektiver RTO. Wenn das Business 1 Minute RTO fordert, brauchst du Active-Active mit gutem Load Balancing. Für 1 Stunde RTO reicht Standby-Cluster. Für 1 Tag RTO genügt Bare-Metal-Restore aus Backup.

11) Datenbank-Failover im Detail

Datenbank-Failover ist besonders kritisch und komplex. Schauen wir uns das genauer an, am Beispiel PostgreSQL Streaming Replication:

Primary: nimmt alle Schreib-Vorgänge entgegen, sendet WAL-Logs zum Standby
Standby: Read-Only-Replica, spielt WAL-Logs nach, ist sekunden-aktuell
Replication Lag: typisch <1 Sek, kann bei Last steigen

Failover-Ablauf:

Primary fällt aus, Standby erkennt das (Heartbeat-Timeout)
Standby wartet auf letzte WAL-Logs (kurze Verzögerung wegen Replikations-Lag)
Standby wird via pg_promote() oder pg_ctl promote zum neuen Primary befördert
Applications müssen wissen, dass sie nun zu einer anderen Adresse connecten
Häufig via VIP, Connection-Pooler (PgBouncer) oder DNS-Failover gelöst

Komplikation: Replication Lag bedeutet möglichen Datenverlust. Wenn 2 Sekunden Lag und Primary stirbt, sind die letzten 2 Sekunden Schreibvorgänge weg. Synchrone Replikation eliminiert das – ist aber langsamer im Normalbetrieb. Tools wie Patroni, repmgr oder Stolon automatisieren das.

12) Häufige Failover-Probleme

Failover sieht im Konzept einfach aus, scheitert aber oft an Details. Klassische Probleme:

Split Brain: kein Fencing → ausgefallener Knoten taucht wieder auf, beide aktiv → Datenkonflikte
Flapping: kurze Aussetzer triggern wiederholte Failovers, System pendelt unkontrolliert
Stuck Resources: Failover bleibt hängen, eine Ressource lässt sich nicht freigeben
Stale Connections: Clients halten alte Verbindungen, gehen nicht automatisch auf neuen Knoten
App nicht failover-aware: kann nicht mit Reconnect umgehen, verliert Sessions
Replication Lag: Daten zwischen letztem Replikations-Punkt und Disaster sind weg
ARP-Caching: Switches behalten alte MAC-IP-Mapping, neue VIP-Position braucht Gratuitous ARP
DNS-TTL zu hoch: bei DNS-Failover dauert's ewig bis User umschwenken
Asymmetrische Hardware: Standby kann die Last nicht tragen
Versteckter SPoF: Failover scheitert weil eine andere Komponente auch betroffen ist
Fail-back-Probleme: nach Reparatur kann Original-Primary nicht zurückübernehmen
Failover nie getestet: theoretisch konfiguriert, im Ernstfall ungeprüft

13) Failover testen

Wie bei Backups gilt auch hier: ungetesteter Failover funktioniert wahrscheinlich nicht. Regelmäßige Tests sind Pflicht:

Geplante Failover: in Wartungsfenstern bewusst auslösen, Verhalten beobachten
Chaos Engineering: Netflix-Stil – Komponenten zufällig ausschalten, sehen was passiert
DR-Drills: vierteljährliche / jährliche Tests des kompletten Failovers (siehe K58 L8)
Smoke Tests: nach jedem Failover-Test prüfen, ob alles funktioniert
Failover-Zeit messen: mit Stoppuhr dokumentieren, ob die RTO-Vorgaben eingehalten werden

Best Practice: nach jedem realen Failover ein Postmortem – was lief gut, was nicht, was kann verbessert werden? Lessons Learned ins Runbook übernehmen.

14) Failover-Runbooks

Selbst bei automatischem Failover braucht's Runbooks – schriftliche Anleitungen für die menschliche Aktionen, die folgen. Inhalte:

Verifizieren dass Failover erfolgreich war (Service erreichbar, Daten konsistent)
Root-Cause-Analyse: warum ist der primary ausgefallen?
Reparatur-Schritte für den ausgefallenen Knoten
Failback-Prozedur, wenn primary repariert ist
Kommunikation: wer wird informiert? Status-Pages? Kunden-Benachrichtigung?
Dokumentation des Vorfalls für späteren Postmortem

Runbooks müssen auch ohne Original-Admin ausführbar sein. Im Ernstfall ist die zuständige Person vielleicht im Urlaub. Die Doku muss so klar sein, dass auch jemand anderes den Failover-Prozess durchführen kann.

Zusammenfassung

Failover = automatische oder manuelle Übernahme der Aufgaben eines ausgefallenen Systems durch ein anderes. Phasen: Detection → Verification → Decision → Fencing → Resource Migration → App Recovery → Verification → Notification. Typische Failover-Zeit: 30 Sekunden bis 5 Minuten. Automatisch (schnell, 24/7, Risiko von Fehl-Failovers) vs. Manuell (kontrolliert, Mensch entscheidet, langsamer). Detection-Methoden: Heartbeat, Service Health Check, Resource Monitoring, Synthetic Probing, App Self-Reporting. Kombinieren für volle Abdeckung. Auslöser: Hardware-Crash, Software-Crash, hängender Service, Netzwerk-Ausfall, Resource-Erschöpfung, Replikations-Lag, geplante Wartung. Failback: Rückkehr zum primary – meist manuell, um Doppel-Downtime zu vermeiden, mit Daten-Resync. Mechanismen: VIP/VRRP (Keepalived, sehr schnell, lokal), DNS-Failover (cross-region, TTL-abhängig), DB-Replikations-Failover (Promote Standby zu Primary). Failover-Zeiten: LB 5 Sek, VRRP 10 Sek, Cluster 30 Sek, DB-Promotion 2 Min, DNS 5 Min, Geo-DR 15+ Min. Häufige Probleme: Split Brain, Flapping, Replication Lag, ARP-Caching, App nicht failover-aware, ungetestet. Best Practice: regelmäßig testen, Runbooks pflegen, Postmortems machen.

Failover: automatisch und manuell

1) Was ist Failover?

2) Die Phasen eines Failovers

3) Automatisches vs. manuelles Failover

4) Wann automatisch, wann manuell?

5) Detection-Methoden

6) Failover-Auslöser

7) Failback – die Rückkehr

8) DNS-basiertes Failover

9) VIP-Failover (Floating IP)

10) Failover-Zeiten verschiedener Technologien

11) Datenbank-Failover im Detail

12) Häufige Failover-Probleme

13) Failover testen

14) Failover-Runbooks

Zusammenfassung

Anmelden

Account Registrieren und Fortschritt Speichern!

Modal title