Aufgaben Hochverfügbarkeit

IHK-Aufgaben Hochverfügbarkeit

Zum Abschluss von K59 Hochverfügbarkeit & Disaster Recovery findest du hier 10 typische IHK-Prüfungsaufgaben. Sie decken Verfügbarkeits-Berechnung, MTBF/MTTR, SPoF, USV, Load Balancing, Clustering, Failover, DR und BCP ab.

💡 Tipp zur Bearbeitung

Versuche jede Aufgabe zuerst selbst zu lösen. Bei Berechnungen den Rechenweg zeigen. Bei konzeptionellen Fragen Begriffe definieren + Beispiele bringen. K59 ist Experten-Niveau – Antworten oft länger als bei anderen Kursen.

Aufgabe 1 leicht

Berechne die maximal akzeptable Downtime pro Jahr für ein System mit folgenden SLAs:
a) 99%
b) 99,9%
c) 99,99%
d) 99,999%

Lösung

Stunden pro Jahr: 365 × 24 = 8.760 h. Maximale Downtime = 8760 × (1 − SLA).

99,0%: 8760 × 0,01 = 87,6 h ≈ 3 Tage 15 Stunden
99,9%: 8760 × 0,001 = 8,76 h ≈ 8 Stunden 45 Minuten
99,99%: 8760 × 0,0001 = 0,876 h ≈ 52 Minuten 35 Sekunden
99,999%: 8760 × 0,00001 = 0,0876 h ≈ 5 Minuten 15 Sekunden

Faustregel: jede zusätzliche „Neun" reduziert die erlaubte Downtime um Faktor 10. Mehr in L1.

Aufgabe 2 leicht

Definiere MTBF und MTTR und gib die Verfügbarkeits-Formel an, die beide Werte verbindet. Welche der beiden Kennzahlen kann man in der Praxis oft leichter beeinflussen?

Lösung

MTBF (Mean Time Between Failures): mittlere Zeit zwischen zwei aufeinanderfolgenden Ausfällen eines Systems. Maß für die Zuverlässigkeit.

MTTR (Mean Time To Repair/Recovery): mittlere Zeit zur Wiederherstellung nach einem Ausfall. Maß für die Wartbarkeit.

Verfügbarkeits-Formel: A = MTBF / (MTBF + MTTR)

Leichter beeinflussbar: in der Praxis meist die MTTR. Sie hängt von Prozessen, Tools, Training und Automatisierung ab. Verbesserungen erfordern oft keine Investitionen in neue Hardware:

Bessere Monitoring-Tools verkürzen die Detection-Zeit
Dokumentierte Runbooks beschleunigen die Reparatur
Automatisches Failover eliminiert manuelle Schritte
Cross-Training reduziert Abhängigkeit von einzelnen Personen

MTBF erhöhen kostet oft mehr (bessere Hardware, mehr Redundanz). Mehr in L2.

Aufgabe 3 mittel

Ein System hat eine MTBF von 2.000 Stunden und eine MTTR von 4 Stunden.

Berechne die Verfügbarkeit in Prozent. Wie hoch wäre sie, wenn die MTTR auf 1 Stunde reduziert werden könnte?

Lösung

Ausgangswert: A = 2000 / (2000 + 4) = 2000 / 2004 = 0,998004 ≈ 99,80%

Das entspricht ca. 17,5 Stunden Downtime pro Jahr.

Mit MTTR = 1 Stunde: A = 2000 / (2000 + 1) = 2000 / 2001 = 0,999500 ≈ 99,95%

Das entspricht ca. 4,4 Stunden Downtime pro Jahr.

Erkenntnis: durch Verkürzung der MTTR von 4h auf 1h (Faktor 4) konnte die Downtime um Faktor 4 reduziert werden. Effiziente Investition in Monitoring und Automatisierung statt teurere Hardware.

Aufgabe 4 mittel

Was ist ein Single Point of Failure (SPoF)? Nenne mindestens vier verschiedene Ebenen, auf denen SPoFs auftreten können, jeweils mit Beispiel.

Lösung

Single Point of Failure (SPoF): eine Komponente in einem System, deren Ausfall das gesamte System lahmlegt. SPoFs haben keine Redundanz – wenn sie kaputt gehen, gibt's keinen Ersatz.

Ebenen mit Beispielen:

Energie: einzelner Stromkreis, einzelne USV ohne Redundanz, fehlendes Notstrom-Aggregat
Hardware: einzelne Festplatte ohne RAID, einzelne CPU, eine Netzwerkkarte
Netzwerk: ein Switch, eine Firewall, ein Uplink, ein Internet-Provider
Server: einzelner Webserver, einzelne VM auf einem Host
Daten: einzelne Datenbank ohne Replikation, fehlende Backups
Services: einzelner DNS-Server, einzelner AD-Controller, einzelner License-Server
Standort: ein Rechenzentrum, ein Bürogebäude
Personen: nur ein Admin kennt das System, fehlende Vertretungsregelung

Wichtig: RAID ist kein Backup, Cloud-Sync ist kein Backup – das sind klassische Anti-Patterns. Mehr in L3.

Aufgabe 5 mittel

Erläutere die drei USV-Klassen nach IEC 62040-3 (Offline/VFD, Line-Interactive/VI, Online/VFI). Welche eignet sich für welchen Einsatz, und warum ist die Online-USV der Goldstandard für Rechenzentren?

Lösung

VFD – Offline / Standby: Der Server bekommt im Normalfall direkt Netzstrom. Bei Ausfall schaltet die USV auf Batterie um – mit 5-10 ms Umschaltzeit. Einfachster und günstigster Typ.

Einsatz: Heim-PC, einfache Büro-Geräte
Vorteil: günstig
Nachteil: Schutz nur vor Stromausfall, langsame Umschaltung

VI – Line-Interactive: Beinhaltet einen Automatic Voltage Regulator (AVR), der Spannungsschwankungen ausgleicht ohne Batterie-Eingriff. Bei größeren Problemen Umschaltung auf Batterie mit 2-5 ms.

Einsatz: KMU-Server, kleine NAS-Systeme
Vorteil: Schutz auch vor Über-/Unterspannung
Nachteil: nicht für hochkritische Systeme

VFI – Online / Double-Conversion: Der Strom geht immer durch den Wechselrichter, der von der Batterie gespeist wird. Der Server sieht nie direkt das Netz. Umschaltzeit: 0 ms.

Einsatz: Rechenzentren, kritische Server, Medizintechnik
Vorteil: Schutz vor allen 9 Strom-Anomalien (Blackout, Sag, Surge, Spike, Frequenzabweichung, Oberwellen etc.)
Nachteil: teurer, mehr Energieverbrauch (Doppel-Konversion)

Goldstandard für Rechenzentren, weil die VFI alle Strom-Probleme filtert. Server bekommen perfekten Sinus-Strom konstanter Spannung und Frequenz. Bei Netzausfall keine Umschaltung – Batterie übernimmt nahtlos. Schützt Hardware vor Beschädigung durch Spannungsspitzen (z.B. Blitzeinschlag). Mehr in L4.

Aufgabe 6 mittel

Erkläre den Unterschied zwischen Layer-4 und Layer-7 Load Balancern. Welche Vor- und Nachteile haben sie, und welcher würde sich für einen Microservice mit URL-basiertem Routing eignen?

Lösung

Layer-4 Load Balancer (TCP/UDP-Ebene):

Verteilt Anfragen basierend auf IP-Adresse + Port
Kennt den Inhalt der Pakete nicht (keine Anwendungsdaten)
Sehr schnell, geringe Latenz
Funktioniert für jedes TCP/UDP-Protokoll
Keine inhaltsbasierten Entscheidungen möglich
Beispiele: AWS NLB, HAProxy im TCP-Modus

Layer-7 Load Balancer (HTTP-Ebene):

Entscheidet basierend auf HTTP-Headern, URL, Cookies, Hostname
Kann SSL terminieren, Inhalte modifizieren
URL-basiertes Routing möglich (/api/* → API-Server)
Cookie-basierte Sticky Sessions, WAF-Funktionen
Langsamer (Pakete müssen analysiert werden)
Nur für HTTP/HTTPS-basierte Anwendungen
Beispiele: AWS ALB, nginx, Traefik, Envoy

Für Microservices mit URL-basiertem Routing: eindeutig Layer-7 Load Balancer. Beispiel:

/api/users/* → User-Service-Pool
/api/orders/* → Order-Service-Pool
/static/* → CDN/Static-Server

Layer-4 könnte das nicht – er sieht nur Ziel-IP und Port, kann keine URL-Entscheidungen treffen. Mehr in L5.

Aufgabe 7 schwer

Vergleiche Active-Active und Active-Passive Cluster. Erkläre die Konzepte Heartbeat, Quorum, Split Brain und Fencing/STONITH. Warum haben Cluster meist eine ungerade Knoten-Anzahl?

Lösung

Active-Active Cluster: alle Knoten arbeiten gleichzeitig und bedienen Anfragen. Die Last verteilt sich auf alle. Bei Ausfall eines Knotens übernehmen die anderen seine Last zusätzlich.

Vorteil: maximale Hardware-Auslastung, bessere Skalierung, kein „verschwendeter" Standby
Nachteil: komplexer (verteilte Zustände, Konflikte möglich), Risiko der Überlast
Geeignet für: zustandslose Services (Web-Server, App-Server)

Active-Passive Cluster: ein Knoten ist aktiv, der andere wartet als Standby. Bei Ausfall übernimmt der Standby (Failover).

Vorteil: einfacher, kein Daten-Konflikt-Risiko, klassische Architektur
Nachteil: 50% der Hardware ungenutzt, Failover dauert
Geeignet für: zustandsbehaftete Services (klassische Datenbanken, File-Server)

Kernkonzepte:

Heartbeat: periodisches „Ich lebe"-Signal zwischen Knoten. Bleibt es aus, gilt der Knoten als ausgefallen.
Quorum: das Mehrheits-Prinzip. Nur die Mehrheit der Knoten darf weiterarbeiten. Bei 5 Knoten braucht's mindestens 3. Verhindert Split Brain bei Netzwerk-Partitionen.
Split Brain: Horror-Szenario bei Netzwerk-Trennung: zwei isolierte Teil-Cluster denken jeweils sie wären die einzigen, arbeiten beide weiter, verursachen Datenkonflikte.
Fencing / STONITH („Shoot The Other Node In The Head"): ausgefallener Knoten wird physisch/logisch abgeschaltet (via IPMI, iLO, Power-Distribution-Unit), bevor andere Ressourcen übernehmen. Verhindert dass er später Konflikte verursacht.

Warum ungerade Knoten-Anzahl? Bei gerader Anzahl (z.B. 2 oder 4) kann es bei Netzwerk-Partition zu Patt-Situationen kommen, in denen keine Hälfte Quorum hat. Bei ungerader Anzahl (3, 5, 7) gibt es immer eine Mehrheit. Alternative bei 2-Knoten-Clustern: ein Witness oder Quorum-Disk als zusätzlicher Schiedsrichter. Mehr in L6.

Aufgabe 8 schwer

Beschreibe die Phasen eines Failover-Prozesses in der richtigen Reihenfolge. Was passiert in jeder Phase, und wann sollte Failover automatisch und wann manuell ablaufen?

Lösung

Failover-Phasen:

Detection: Ausfall erkennen (Heartbeat-Timeout, Health-Check-Fehler) – 3-10 Sek
Verification: Fehler bestätigen über mehrere Wege, um Fehl-Failover zu vermeiden – 3-15 Sek
Decision: Failover entscheiden, Quorum prüfen, Standby auswählen – 1-5 Sek
Fencing: primären Knoten isolieren (STONITH), damit er später keine Konflikte verursacht – 5-30 Sek
Resource Migration: Standby übernimmt: VIP wandert, Filesystem mounten, DB-Promote, Services starten – 5 Sek - 5 Min
Application Recovery: Caches aufbauen, Connections re-etablieren, ggf. Crash-Recovery – 5 Sek - 2 Min
Verification: Smoke-Tests gegen neuen Knoten, ist der Service erreichbar? – 2-30 Sek
Notification: Team alarmieren, damit ausgefallener Knoten untersucht wird – sofort

Gesamt-Failover-Zeit: typisch 30 Sek bis 5 Min.

Automatisches Failover sinnvoll wenn:

Niedriger RTO gefordert (Sekunden bis wenige Minuten)
Fehler-Erkennung ist zuverlässig (eindeutig Ja/Nein)
System ist zustandslos oder hat robuste Replikation
Webserver-Cluster, Load Balancer, Container-Orchestrierung

Manuelles Failover sinnvoll wenn:

Komplexe Situationen, die menschliche Beurteilung brauchen
Datenkonsistenz wichtiger als Verfügbarkeit
Geo-Failover zwischen Rechenzentren
Bei Datenbank-Korruption (automatisches Failover würde Korruption replizieren)

Best Practice: Hybrid-Modell – einfache Ausfälle automatisch, komplexe Situationen mit Admin-Bestätigung. Mehr in L7.

Aufgabe 9 schwer

Was ist der Unterschied zwischen einem DRP und einem BCP? Beschreibe die drei DR-Site-Typen (Cold, Warm, Hot) und erkläre die Business Impact Analyse (BIA).

Lösung

DRP vs. BCP:

DRP (Disaster Recovery Plan): fokussiert auf die IT-Wiederherstellung. Wie kriegen wir Server, Daten, Anwendungen wieder online? Technisch, detailliert.
BCP (Business Continuity Plan): fokussiert auf den gesamten Geschäftsbetrieb. Wie hält die Firma im Notfall funktionsfähig (Personal, Standorte, Lieferanten, Kommunikation)? Umfassender, übergeordnet.
Der DRP ist ein Teil des BCP. BCP enthält DRP plus viele nicht-IT-Aspekte.

DR-Site-Typen:

Cold Site: leerer Raum mit Strom, Klima, Netzwerk – aber keine Hardware. Bei Disaster muss erst Hardware geliefert und installiert werden. RTO: Tage. Kosten: niedrig. Für unkritische Systeme.
Warm Site: Hardware installiert, aber nicht aktiv. Daten werden regelmäßig (täglich/stündlich) repliziert. Bei Disaster aktivieren + ggf. Daten nachladen. RTO: Stunden. Kosten: mittel.
Hot Site: komplette identische Infrastruktur, kontinuierliche Replikation, sofort übernahmebereit. Oft Active-Active mit echtem Live-Traffic. RTO: Minuten bis Sekunden. RPO: ~0. Kosten: hoch.

Business Impact Analyse (BIA): das Herzstück jedes BCP. Sie beantwortet die Frage „Welche Geschäftsprozesse sind wie kritisch und was kostet uns ihr Ausfall?". Schritte:

Geschäftsprozesse identifizieren
Kritikalität bewerten (1-5 oder mission-critical/business-critical/important/nice-to-have)
Ausfallkosten ermitteln (€/Stunde, €/Tag)
Abhängigkeiten kartieren (IT-Systeme, Lieferanten, Personal)
MTPD, RTO, RPO festlegen
Mindest-Service-Level definieren
Prozesse priorisieren
BIA-Bericht erstellen

Mehr in L8 und L9.

Aufgabe 10 schwer

Ein mittelständisches Unternehmen plant einen kritischen Webshop mit folgenden Anforderungen: SLA 99,99%, RTO max. 30 Minuten, RPO max. 5 Minuten. Datenmenge: 1 TB Datenbank, 3 TB Files. Budget: vorhanden, aber wirtschaftlich begründbar.

Entwirf eine vollständige Hochverfügbarkeits- und Disaster-Recovery-Strategie, die die Anforderungen erfüllt. Berücksichtige Stromversorgung, Netzwerk, Server, Datenbank, Load Balancing, Backup, DR-Site und Tests.

Lösung

Anforderungen: 99,99% SLA = max. 52 Min Downtime/Jahr, RTO 30 Min, RPO 5 Min. Das erfordert einen redundanten Aufbau auf allen Ebenen.

1. Stromversorgung:

Zwei redundante Netzteile pro Server (A-Feed / B-Feed an verschiedene Stromkreise)
Zwei Online-USVs (VFI) pro Stromkreis, N+1-Konfiguration
Notstrom-Aggregat (Diesel) mit monatlichem Test, 24h Tankreserve

2. Netzwerk:

Zwei unabhängige Internet-Provider mit BGP-Failover
HA-Firewall-Cluster (Active-Passive mit Keepalived/VRRP)
Redundante Switches, Server mit 2 NICs (LACP zu verschiedenen Switches)

3. Server & Load Balancing:

Mindestens 3 Web-Server im Active-Active-Cluster (N+1)
HA-Load-Balancer-Pärchen (z.B. nginx oder HAProxy mit Keepalived) auf VIP
Layer-7 Routing für URL-basierte Verteilung
Server in verschiedenen Racks mit unterschiedlichen Stromkreisen

4. Datenbank (RPO 5 Min):

PostgreSQL mit Streaming Replication (synchron oder semi-sync) → RPO < 1 Sek
Mindestens ein synchroner Standby + ein asynchroner für Reads
Patroni für automatisches Failover-Management
Connection Pooling über PgBouncer (Apps können einfach reconnecten)

5. Backup-Strategie nach 3-2-1-1-0:

Kopie 1: produktive Systeme
Kopie 2: Backup-Appliance lokal (Veeam o.ä.), tägliche Vollsicherung + inkrementelle alle 4h
Kopie 3: Off-Site-Backup zu Cloud (z.B. AWS S3 mit Object Lock für Immutability)
Binary Logs / WAL für PITR alle 5 Minuten ins Backup → erfüllt RPO 5 Min
Restore-Tests monatlich, dokumentiert

6. DR-Site (RTO 30 Min):

Warm Site mit pre-installiertem System, kontinuierliche DB-Replikation
DNS-Failover via Route 53 mit Health Checks, TTL 60 Sek
Failover-Runbook dokumentiert, automatisierte Skripte für schnelle Aktivierung
Standort mindestens 50 km entfernt vom Haupt-RZ

7. Monitoring & Failover:

Prometheus + Grafana für Metriken, Alertmanager für Alarme
Synthetic Monitoring von externer Quelle (User-Sicht)
Automatisches Failover für Standard-Fälle (Server-Crash → andere übernehmen)
Manuelles Failover für komplexe Fälle (DB-Korruption, RZ-Wechsel)

8. Tests:

Täglich: automatischer Backup-Existence-Check
Wöchentlich: Backup-Integrity-Check
Monatlich: Restore einer DB auf Test-System, USV-Lasttest
Quartalsweise: Failover-Test im Haupt-RZ, DR-Site-Aktivierung
Jährlich: Full-Scale DR-Drill mit dokumentiertem Postmortem

9. Dokumentation & Personal:

DRP und BCP dokumentiert, jährlich aktualisiert
Runbooks für alle Failover-Szenarien
Cross-Training: mindestens 2 Personen pro kritischer Aufgabe
On-Call-Rotation mit klarer Eskalations-Matrix
Kontaktverzeichnis (Krisenstab + Vertretungen) zentral abgelegt, auch offline verfügbar

Verfügbarkeits-Analyse: Mit allen redundanten Komponenten (je 99,9%) sollte das Setup eine berechnete Gesamt-Verfügbarkeit von > 99,99% erreichen. Wichtig: echte Unabhängigkeit der redundanten Komponenten (verschiedene Racks, Stromkreise, Provider).

Diese Strategie erfüllt RTO 30 Min (Warm Site + automatisches Failover für Standard-Fälle) und RPO 5 Min (synchrone DB-Replikation + WAL-Archiving). Kosten: deutlich höher als Einzel-Server-Setup, aber wirtschaftlich begründbar bei einem geschäftskritischen Webshop. Mehr in L8 und K58.

✓ Geschafft!

Du hast den Kurs K59 – Hochverfügbarkeit & Disaster Recovery abgeschlossen. Damit sind die drei Säulen der IT-Resilienz komplett: K57 RAID für Storage-Verfügbarkeit, K58 Backup für Datenwiederherstellung, und K59 für System-Hochverfügbarkeit. Im IHK-Prüfungsteil C ist dieses Wissen gefragt – jetzt bist du gut vorbereitet.

Aufgaben Hochverfügbarkeit

Lösung

Lösung

Lösung

Lösung

Lösung

Lösung

Lösung

Lösung

Lösung

Lösung

Anmelden

Account Registrieren und Fortschritt Speichern!

Modal title