MTBF und MTTR

In L1 hast du die Verfügbarkeits-Formel kennengelernt: A = MTBF / (MTBF + MTTR). Diese Lektion erklärt, was hinter den beiden Abkürzungen steckt. MTBF und MTTR sind die zwei wichtigsten Kennzahlen, mit denen Hardware-Hersteller, Hosting-Anbieter und Betreiber die Zuverlässigkeit von Systemen beschreiben.

Du wirst diese Begriffe in jedem Datenblatt einer Festplatte, in SLA-Verträgen, in Compliance-Audits und im Job-Alltag ständig sehen. Wer sie versteht, kann Verfügbarkeit nicht nur diskutieren, sondern aktiv verbessern: entweder die Zeit zwischen Ausfällen verlängern – oder die Zeit zur Wiederherstellung verkürzen.

1) MTBF – Mean Time Between Failures

Die MTBF (deutsch: mittlere Zeit zwischen Ausfällen) ist die durchschnittliche Zeit, die ein System zwischen zwei aufeinanderfolgenden Ausfällen läuft. Sie ist ein Maß für die Zuverlässigkeit der Hardware oder Software.

MTBF im Detail

📊 Definition MTBF

MTBF = Gesamte Betriebszeit / Anzahl der Ausfälle

Beispiel: ein Server läuft 10.000 Stunden und hat in dieser Zeit 5 Ausfälle. MTBF = 10.000 / 5 = 2.000 Stunden. Im Mittel passiert alle 2.000 Stunden ein Ausfall.

Hersteller geben MTBF-Werte oft in der Größenordnung 1-2 Millionen Stunden an. Das klingt nach „nie kaputt" – ist aber eine statistische Aussage über große Stückzahlen. Bei 1.000 Festplatten mit MTBF = 1.000.000 Stunden fällt im Mittel jede Stunde eine aus.

2) MTTR – Mean Time To Repair / Recovery

Die MTTR ist die durchschnittliche Zeit, die benötigt wird, um ein System nach einem Ausfall wieder zum Laufen zu bringen. Sie misst die Wartbarkeit / Recovery-Fähigkeit. Während MTBF Hardware-Eigenschaft ist, ist MTTR primär Prozess-Eigenschaft – sie hängt vom Team, von Dokumentation, Ersatzteilen und Automatisierung ab.

MTTR im Detail

🔧 Definition MTTR

MTTR = Gesamte Reparaturzeit / Anzahl der Reparaturen

Beispiel: 5 Ausfälle, deren Reparaturen insgesamt 10 Stunden gedauert haben. MTTR = 10 / 5 = 2 Stunden. Im Schnitt dauert es 2 Stunden bis das System wieder läuft.

MTTR kann oft einfacher reduziert werden als MTBF erhöht. Bessere Monitoring-Tools, dokumentierte Runbooks, geübte Teams und Automatisierung verkürzen MTTR drastisch – oft günstiger als zuverlässigere Hardware zu kaufen.

3) Visualisierung als Timeline

Beide Werte sind am klarsten als Zeitleiste mit abwechselnden Up- und Down-Phasen zu verstehen. Schauen wir uns das an:

Lebenszyklus eines Systems mit Ausfällen

Up-Zeiten (grün) und Reparatur-Zeiten (rot) im Verlauf

UP — 1.800 h

DOWN 200h

UP — 2.200 h

DOWN 100h

UP — 2.000 h

DOWN 150h

UP — 2.000 h

← MTBF: zwischen Ausfällen → ← MTTR: Reparatur → ← MTBF → ← MTTR → ← MTBF → MTTR ← MTBF →

      Gesamt UP: 1.800 + 2.200 + 2.000 + 2.000 = 8.000 h

      Gesamt DOWN: 200 + 100 + 150 = 450 h

      Anzahl Ausfälle: 3

      MTBF = 8.000 / 3 ≈ 2.667 h

      MTTR = 450 / 3 = 150 h

Wichtig: die MTBF zählt die Up-Zeiten zwischen den Ausfällen – nicht die Gesamt-Zeit inklusive Downtime. In manchen Definitionen wird auch MTTF (Mean Time To Failure) für nicht-reparierbare Systeme unterschieden, MTBF für reparierbare.

4) Verfügbarkeit aus MTBF und MTTR berechnen

Mit beiden Werten lässt sich die Verfügbarkeit (Availability) ausrechnen. Das ist die in L1 bereits erwähnte Formel:

Verfügbarkeit aus MTBF/MTTR

✓ Verfügbarkeits-Formel

A = MTBF / (MTBF + MTTR)

Beide Werte in gleicher Einheit. Ergebnis zwischen 0 und 1, gerne in Prozent.

Beispiel mit Werten aus oben:

MTBF = 2.667 h

MTTR = 150 h

A = 2.667 / (2.667 + 150) = 2.667 / 2.817

A = 0,9468 = 94,68%

Diese Verfügbarkeit ist nicht gerade beeindruckend – etwa 20 Tage Downtime pro Jahr. Für ein kritisches System völlig inakzeptabel. Zwei Hebel zur Verbesserung: MTBF erhöhen oder MTTR senken (oder beides).

5) MTBF vs. MTTR – die zwei Hebel

Es sind tatsächlich zwei sehr unterschiedliche Stellschrauben. Hier nebeneinander:

MTBF und MTTR im Vergleich

MTBF erhöhen

Zuverlässigere Komponenten

Bessere Hardware kaufen, mehr Tests, Redundanz im System, Monitoring zur Vorhersage von Defekten. Geht oft mit höheren Beschaffungskosten einher.

→ Maßnahmen: Hardware-Wahl, Architektur, Predictive Maintenance

MTTR senken

Schnellere Wiederherstellung

Bessere Monitoring-Alerts, dokumentierte Runbooks, geübte On-Call-Teams, Automatisierung, Hot-Spare-Hardware, Failover-Mechanismen.

→ Maßnahmen: Prozesse, Tools, Training, Failover (L7)

Ein Beispiel zeigt die Hebelwirkung: MTBF = 1.000h, MTTR = 10h → A = 99,01%. Halbierte MTTR auf 5h → A = 99,5%. Verdoppelte MTBF auf 2.000h → A = 99,5%. Das gleiche Ergebnis durch zwei verschiedene Wege.

6) Konkrete MTBF-Werte aus der Praxis

Was sind realistische MTBF-Werte für verschiedene Hardware? Hier eine Übersicht:

Typische MTBF-Angaben von Herstellern

Komponente

Anwendungsbereich

MTBF (Stunden)

SSD (Enterprise)

Server-SSD, dauerhaft im Einsatz

~2.000.000

HDD (Enterprise)

NAS, Server-Storage

~1.500.000

HDD (Consumer)

Desktop, externe Platten

~500.000-1.000.000

Netzteil (Server)

Redundante PSU

~100.000-200.000

Lüfter

Server-Lüfter

~50.000-150.000

RAM-Modul

ECC-Memory

~5.000.000+

Netzwerk-Switch

Enterprise-Switch

~200.000-500.000

2 Millionen Stunden = 228 Jahre. Klingt nach „nie kaputt", ist aber eine statistische Aussage. Bei 1.000 Geräten dieser Klasse fällt im Mittel ein Gerät alle 2.000 Stunden aus – das sind ~83 Tage zwischen Ausfällen. Für Storage-Anbieter mit zehntausenden Platten heißt das: täglich Ausfälle, automatischer Austausch via RAID.

7) MTBF-Werte richtig interpretieren

Hersteller-Angaben sind nicht immer hilfreich, weil sie oft mit Vorbehalten daherkommen. Drei wichtige Punkte:

Statistik, kein Versprechen: MTBF von 1 Mio. Stunden bedeutet nicht, dass deine Platte 114 Jahre läuft. Es bedeutet: 1% Ausfallrate pro Jahr bei normaler Nutzung. Erste Geräte können nach 6 Monaten sterben, andere nach 15 Jahren.
Bedingungen beachten: MTBF gilt unter spezifizierten Bedingungen (Temperatur, Vibration, Stromqualität). In einem überhitzten Serverraum sinkt sie drastisch.
Badewannenkurve: Ausfälle treten gehäuft am Anfang (Frühausfälle) und am Ende (Verschleiß) der Lebensdauer auf. MTBF ist ein Mittel über die mittlere Phase.

Studien wie der jährliche Backblaze Drive Stats Report zeigen reale Ausfallraten von Festplatten in Produktion. Sie weichen oft deutlich von den Herstellerangaben ab – meist nach oben in der Ausfallrate. Wer plant, sollte realistische Werte aus solchen Reports nehmen.

8) MTTR – die einzelnen Phasen

MTTR ist nicht eine einzige Zeit, sondern setzt sich aus mehreren Phasen zusammen. Wenn du MTTR senken willst, schaust du dir an, wo in dieser Kette du Zeit sparen kannst:

Die Phasen der Reparatur (MTTR-Komposition)

Detection (Erkennung)

Wie lange dauert es bis der Ausfall überhaupt bemerkt wird? Hängt von Monitoring ab. Heißt auch MTTD (Mean Time To Detect).

5-30 Min

Notification (Benachrichtigung)

Wann erreicht der Alert das richtige Team? Eskalationswege, Pager-Duty, Telefonketten.

1-15 Min

Response (Anfangs-Reaktion)

Mensch nimmt sich der Sache an, loggt sich ein, schaut sich die Lage an.

5-30 Min

Diagnosis (Analyse)

Was ist genau kaputt? Logs lesen, Ursache identifizieren, Lösungsweg festlegen.

10 Min - 2 Std

Repair (Reparatur)

Tatsächliche Behebung: Hardware tauschen, Software-Restart, Konfiguration anpassen, Backup einspielen.

30 Min - mehrere h

Verification (Verifikation)

Funktioniert es wieder? Tests, Monitoring prüfen, ggf. User informieren.

10-30 Min

Beobachtung: gute Detection und Notification (Phasen 1-2) verkürzen MTTR oft drastisch. Wenn dein Monitoring 30 Minuten braucht um Alarm zu schlagen, sind das 30 Minuten MTTR ohne dass jemand etwas tut. Mehr Aufmerksamkeit lohnt sich.

9) MTTD, MTTF, MTBF, MTTR – die Verwandten

Es gibt mehrere ähnlich klingende Abkürzungen. Hier die Unterschiede:

Die MT-Familie der Kennzahlen

MTBF

Mean Time Between Failures – mittlere Zeit zwischen zwei Ausfällen bei reparierbaren Systemen. Misst Zuverlässigkeit.

MTTF

Mean Time To Failure – mittlere Lebensdauer bei nicht reparierbaren Systemen oder Bauteilen. Z.B. für eine Glühbirne. Nach dem Ausfall: weg.

MTTR

Mean Time To Repair / Recovery – mittlere Reparaturdauer. Misst Wartbarkeit und Reaktionsfähigkeit.

MTTD

Mean Time To Detect – Zeit bis ein Ausfall bemerkt wird. Teil der MTTR. Wichtig: schlechtes Monitoring → hohe MTTD → hohe MTTR.

MTBR

Mean Time Between Replacements – Zeit zwischen Hardware-Austauschen. Etwas anderes als MTBF (auch Software-Fehler zählen zu MTBF).

MTBSI

Mean Time Between Service Incidents – seltener: Zeit zwischen Service-Vorfällen. ITIL-Begriff.

MTPD

Maximum Tolerable Period of Disruption – absolute Schmerzgrenze des Business. Setze RTO < MTPD. Siehe auch RTO/RPO in K58 L6.

In der Praxis am häufigsten: MTBF und MTTR. Die anderen sind Verfeinerungen für spezifische Kontexte. MTTD wird besonders in DevOps/SRE-Umfeld immer wichtiger.

10) Konkretes Praxis-Beispiel

Du hast einen Web-Server, der typischerweise 1.500 Stunden zwischen Ausfällen läuft. Jeder Ausfall dauert im Schnitt 3 Stunden Reparaturzeit. Welche Verfügbarkeit ergibt sich, und wie kannst du sie verbessern?

Verfügbarkeits-Analyse Web-Server

Ausgangssituation:

MTBF = 1.500 h

MTTR = 3 h

A = 1500 / (1500 + 3) = 1500 / 1503

A = 99,80% (entspricht ca. 17,5h Downtime/Jahr)

Verbesserung 1: MTBF verdoppeln (zuverlässigere Hardware, redundante Komponenten)

MTBF = 3.000 h

MTTR = 3 h

A = 99,90% (ca. 8,8h Downtime/Jahr)

Verbesserung 2: MTTR auf 0,5h senken (besseres Monitoring, Hot-Standby, Auto-Failover)

MTBF = 1.500 h

MTTR = 0,5 h

A = 99,97% (ca. 2,6h Downtime/Jahr)

Verbesserung 3: Beide kombinieren

MTBF = 3.000 h

MTTR = 0,5 h

A = 99,98% (ca. 1,75h Downtime/Jahr)

Beobachtung: MTTR senken bringt oft mehr als MTBF erhöhen – und ist häufig günstiger. Statt teurere Hardware zu kaufen, lohnt es sich oft, Monitoring und Failover zu verbessern. Hauptaufgabe in DevOps/SRE-Teams.

11) MTTR senken in der Praxis

Wenn du den Hebel MTTR identifiziert hast, hier konkrete Maßnahmen die in echten Projekten funktionieren:

Monitoring mit Alerting: Prometheus, Grafana, Datadog – damit Probleme in < 1 Min erkannt werden
Runbooks und Playbooks: dokumentierte Schritt-für-Schritt-Anleitungen für häufige Fehler
Automatische Heilung: Self-Healing-Systeme, die bekannte Probleme ohne menschliches Eingreifen lösen (z.B. Kubernetes restart bei OOM)
Hot-Spare-Hardware: identische Reserve-Hardware im Schrank, sofort einsatzbereit
Automatisches Failover: redundante Systeme, die automatisch übernehmen (siehe L7)
On-Call-Rotation: 24/7-Erreichbarkeit mit klarem Eskalations-Plan
Postmortems: nach jedem Vorfall analysieren, was MTTR verlängert hat, und systemisch beheben
Chaos Engineering: regelmäßiges Üben von Ausfall-Szenarien (Netflix-Stil)

12) MTBF erhöhen in der Praxis

Und so kannst du am MTBF-Hebel drehen:

Hochwertige Hardware: Enterprise-Grade statt Consumer (höhere MTBF, längere Garantie)
Redundanz auf Komponenten-Ebene: doppelte Netzteile, RAID-Festplatten, mehrere Netzwerk-Karten
Predictive Maintenance: SMART-Monitoring für Festplatten, Alerts bei drohenden Defekten
Geeignete Umgebung: Klimatisierung, Schwingungsdämpfung, saubere Stromversorgung (USV)
Regelmäßige Updates: Software-Bugs vermeiden, die zu Crashes führen
Lasttests: Systeme nicht über Auslegungsgrenze betreiben
Lebenszyklus-Management: alte Hardware vor Ausfall-Häufung tauschen
Burn-In-Tests: neue Hardware vor Einsatz unter Last testen (Frühausfälle abfangen)

13) MTBF und Redundanz: das große Zusammenspiel

Eine bemerkenswerte Eigenschaft: wenn du redundante Komponenten einsetzt, kann die System-MTBF höher sein als die Komponenten-MTBF. Das ist die mathematische Magie hinter RAID (K57) und Clustering (L6):

Zwei Festplatten in RAID 1 (Spiegel) mit je MTBF = 1 Mio. Stunden: theoretisch ist die System-MTBF deutlich höher, denn das System fällt nur aus wenn beide Platten innerhalb der Reparaturzeit der ersten ausfallen. Bei MTTR von 24 Stunden ist die Wahrscheinlichkeit dafür extrem gering.

Mehr Details und Formeln dazu in L3 (SPoF) und L6 (Clustering). Der Punkt: durch Redundanz kannst du aus mittelmäßiger Hardware ein hochverfügbares System bauen.

Zusammenfassung

MTBF (Mean Time Between Failures) = mittlere Zeit zwischen Ausfällen, misst Zuverlässigkeit. Berechnung: Gesamt-Uptime / Anzahl Ausfälle. Typische Werte: SSD ~2M h, HDD ~1M h, Lüfter ~100k h. MTTR (Mean Time To Repair) = mittlere Reparaturdauer, misst Wartbarkeit. Berechnung: Gesamt-Reparaturzeit / Anzahl Reparaturen. Verfügbarkeits-Formel: A = MTBF / (MTBF + MTTR). Phasen der MTTR: Detection (MTTD), Notification, Response, Diagnosis, Repair, Verification. Zwei Hebel: MTBF erhöhen (bessere Hardware, Redundanz, Predictive Maintenance) oder MTTR senken (Monitoring, Runbooks, Failover, Automatisierung). MTTR senken ist oft günstiger als MTBF erhöhen und bringt mehr Wirkung. Verwandte Begriffe: MTTF (Lebensdauer bei nicht reparierbaren Systemen), MTTD (Detection-Zeit), MTBR (zwischen Hardware-Austauschen), MTPD (Schmerzgrenze des Business). Hersteller-Werte vorsichtig interpretieren: statistische Aussagen über große Mengen, Bedingungen beachten, Badewannenkurve. Redundanz erhöht System-MTBF über Komponenten-MTBF hinaus – Grundlage für Hochverfügbarkeit.