- 1 Section
- 10 Lessons
- unbegrenzt
- Hochverfügbarkeit & Disaster Recovery10
- 1.1Verfügbarkeit berechnen: die Neun-Regel
- 1.2MTBF und MTTR
- 1.3Single Point of Failure identifizieren
- 1.4USV – Unterbrechungsfreie Stromversorgung
- 1.5Load Balancing
- 1.6Clustering: Active-Active vs. Active-Passive
- 1.7Failover: automatisch und manuell
- 1.8Disaster-Recovery-Plan erstellen
- 1.9Business Continuity Plan (BCP)
- 1.10Aufgaben Hochverfügbarkeit
MTBF und MTTR
In L1 hast du die Verfügbarkeits-Formel kennengelernt: A = MTBF / (MTBF + MTTR). Diese Lektion erklärt, was hinter den beiden Abkürzungen steckt. MTBF und MTTR sind die zwei wichtigsten Kennzahlen, mit denen Hardware-Hersteller, Hosting-Anbieter und Betreiber die Zuverlässigkeit von Systemen beschreiben.
Du wirst diese Begriffe in jedem Datenblatt einer Festplatte, in SLA-Verträgen, in Compliance-Audits und im Job-Alltag ständig sehen. Wer sie versteht, kann Verfügbarkeit nicht nur diskutieren, sondern aktiv verbessern: entweder die Zeit zwischen Ausfällen verlängern – oder die Zeit zur Wiederherstellung verkürzen.
1) MTBF – Mean Time Between Failures
Die MTBF (deutsch: mittlere Zeit zwischen Ausfällen) ist die durchschnittliche Zeit, die ein System zwischen zwei aufeinanderfolgenden Ausfällen läuft. Sie ist ein Maß für die Zuverlässigkeit der Hardware oder Software.
2) MTTR – Mean Time To Repair / Recovery
Die MTTR ist die durchschnittliche Zeit, die benötigt wird, um ein System nach einem Ausfall wieder zum Laufen zu bringen. Sie misst die Wartbarkeit / Recovery-Fähigkeit. Während MTBF Hardware-Eigenschaft ist, ist MTTR primär Prozess-Eigenschaft – sie hängt vom Team, von Dokumentation, Ersatzteilen und Automatisierung ab.
3) Visualisierung als Timeline
Beide Werte sind am klarsten als Zeitleiste mit abwechselnden Up- und Down-Phasen zu verstehen. Schauen wir uns das an:
Gesamt DOWN: 200 + 100 + 150 = 450 h
Anzahl Ausfälle: 3
MTBF = 8.000 / 3 ≈ 2.667 h
MTTR = 450 / 3 = 150 h
4) Verfügbarkeit aus MTBF und MTTR berechnen
Mit beiden Werten lässt sich die Verfügbarkeit (Availability) ausrechnen. Das ist die in L1 bereits erwähnte Formel:
5) MTBF vs. MTTR – die zwei Hebel
Es sind tatsächlich zwei sehr unterschiedliche Stellschrauben. Hier nebeneinander:
6) Konkrete MTBF-Werte aus der Praxis
Was sind realistische MTBF-Werte für verschiedene Hardware? Hier eine Übersicht:
7) MTBF-Werte richtig interpretieren
Hersteller-Angaben sind nicht immer hilfreich, weil sie oft mit Vorbehalten daherkommen. Drei wichtige Punkte:
- Statistik, kein Versprechen: MTBF von 1 Mio. Stunden bedeutet nicht, dass deine Platte 114 Jahre läuft. Es bedeutet: 1% Ausfallrate pro Jahr bei normaler Nutzung. Erste Geräte können nach 6 Monaten sterben, andere nach 15 Jahren.
- Bedingungen beachten: MTBF gilt unter spezifizierten Bedingungen (Temperatur, Vibration, Stromqualität). In einem überhitzten Serverraum sinkt sie drastisch.
- Badewannenkurve: Ausfälle treten gehäuft am Anfang (Frühausfälle) und am Ende (Verschleiß) der Lebensdauer auf. MTBF ist ein Mittel über die mittlere Phase.
Studien wie der jährliche Backblaze Drive Stats Report zeigen reale Ausfallraten von Festplatten in Produktion. Sie weichen oft deutlich von den Herstellerangaben ab – meist nach oben in der Ausfallrate. Wer plant, sollte realistische Werte aus solchen Reports nehmen.
8) MTTR – die einzelnen Phasen
MTTR ist nicht eine einzige Zeit, sondern setzt sich aus mehreren Phasen zusammen. Wenn du MTTR senken willst, schaust du dir an, wo in dieser Kette du Zeit sparen kannst:
9) MTTD, MTTF, MTBF, MTTR – die Verwandten
Es gibt mehrere ähnlich klingende Abkürzungen. Hier die Unterschiede:
10) Konkretes Praxis-Beispiel
Du hast einen Web-Server, der typischerweise 1.500 Stunden zwischen Ausfällen läuft. Jeder Ausfall dauert im Schnitt 3 Stunden Reparaturzeit. Welche Verfügbarkeit ergibt sich, und wie kannst du sie verbessern?
11) MTTR senken in der Praxis
Wenn du den Hebel MTTR identifiziert hast, hier konkrete Maßnahmen die in echten Projekten funktionieren:
- Monitoring mit Alerting: Prometheus, Grafana, Datadog – damit Probleme in < 1 Min erkannt werden
- Runbooks und Playbooks: dokumentierte Schritt-für-Schritt-Anleitungen für häufige Fehler
- Automatische Heilung: Self-Healing-Systeme, die bekannte Probleme ohne menschliches Eingreifen lösen (z.B. Kubernetes restart bei OOM)
- Hot-Spare-Hardware: identische Reserve-Hardware im Schrank, sofort einsatzbereit
- Automatisches Failover: redundante Systeme, die automatisch übernehmen (siehe L7)
- On-Call-Rotation: 24/7-Erreichbarkeit mit klarem Eskalations-Plan
- Postmortems: nach jedem Vorfall analysieren, was MTTR verlängert hat, und systemisch beheben
- Chaos Engineering: regelmäßiges Üben von Ausfall-Szenarien (Netflix-Stil)
12) MTBF erhöhen in der Praxis
Und so kannst du am MTBF-Hebel drehen:
- Hochwertige Hardware: Enterprise-Grade statt Consumer (höhere MTBF, längere Garantie)
- Redundanz auf Komponenten-Ebene: doppelte Netzteile, RAID-Festplatten, mehrere Netzwerk-Karten
- Predictive Maintenance: SMART-Monitoring für Festplatten, Alerts bei drohenden Defekten
- Geeignete Umgebung: Klimatisierung, Schwingungsdämpfung, saubere Stromversorgung (USV)
- Regelmäßige Updates: Software-Bugs vermeiden, die zu Crashes führen
- Lasttests: Systeme nicht über Auslegungsgrenze betreiben
- Lebenszyklus-Management: alte Hardware vor Ausfall-Häufung tauschen
- Burn-In-Tests: neue Hardware vor Einsatz unter Last testen (Frühausfälle abfangen)
13) MTBF und Redundanz: das große Zusammenspiel
Eine bemerkenswerte Eigenschaft: wenn du redundante Komponenten einsetzt, kann die System-MTBF höher sein als die Komponenten-MTBF. Das ist die mathematische Magie hinter RAID (K57) und Clustering (L6):
Zwei Festplatten in RAID 1 (Spiegel) mit je MTBF = 1 Mio. Stunden: theoretisch ist die System-MTBF deutlich höher, denn das System fällt nur aus wenn beide Platten innerhalb der Reparaturzeit der ersten ausfallen. Bei MTTR von 24 Stunden ist die Wahrscheinlichkeit dafür extrem gering.
Mehr Details und Formeln dazu in L3 (SPoF) und L6 (Clustering). Der Punkt: durch Redundanz kannst du aus mittelmäßiger Hardware ein hochverfügbares System bauen.
Zusammenfassung
MTBF (Mean Time Between Failures) = mittlere Zeit zwischen Ausfällen, misst Zuverlässigkeit. Berechnung: Gesamt-Uptime / Anzahl Ausfälle. Typische Werte: SSD ~2M h, HDD ~1M h, Lüfter ~100k h. MTTR (Mean Time To Repair) = mittlere Reparaturdauer, misst Wartbarkeit. Berechnung: Gesamt-Reparaturzeit / Anzahl Reparaturen. Verfügbarkeits-Formel: A = MTBF / (MTBF + MTTR). Phasen der MTTR: Detection (MTTD), Notification, Response, Diagnosis, Repair, Verification. Zwei Hebel: MTBF erhöhen (bessere Hardware, Redundanz, Predictive Maintenance) oder MTTR senken (Monitoring, Runbooks, Failover, Automatisierung). MTTR senken ist oft günstiger als MTBF erhöhen und bringt mehr Wirkung. Verwandte Begriffe: MTTF (Lebensdauer bei nicht reparierbaren Systemen), MTTD (Detection-Zeit), MTBR (zwischen Hardware-Austauschen), MTPD (Schmerzgrenze des Business). Hersteller-Werte vorsichtig interpretieren: statistische Aussagen über große Mengen, Bedingungen beachten, Badewannenkurve. Redundanz erhöht System-MTBF über Komponenten-MTBF hinaus – Grundlage für Hochverfügbarkeit.
