Verfügbarkeit berechnen: die Neun-Regel

Hier geht's um den Königsweg der Systemverlässlichkeit: Wie sorgst du dafür, dass IT-Systeme nie ausfallen? Wie misst man Verfügbarkeit überhaupt? Was bedeuten die berühmten „fünf Neunen"? Und was passiert wenn es trotzdem kracht?

Die erste Lektion startet mit dem Fundament: Verfügbarkeit berechnen. Bevor du über USV, Cluster oder Failover redest, musst du verstehen was 99,9% Uptime eigentlich heißt, wie man Verfügbarkeit komponiert, und warum jede zusätzliche „Neun" exponentiell teurer wird. Dieses Wissen brauchst du in jedem SLA-Gespräch, in der IHK-Prüfung und in Architektur-Entscheidungen.

1) Was ist Verfügbarkeit überhaupt?

Die Verfügbarkeit (englisch: Availability) eines Systems ist das Verhältnis der Zeit, in der es korrekt funktioniert, zur Gesamtzeit. Üblicherweise ausgedrückt als Prozentwert. Ein System mit 99% Verfügbarkeit funktioniert in 99 von 100 Stunden – die fehlende Stunde ist Ausfallzeit (Downtime).

Die Formel ist denkbar einfach:

Die Verfügbarkeits-Formel

Grundformel

Verfügbarkeit = Uptime / (Uptime + Downtime)

Uptime und Downtime sind Zeiten in gleicher Einheit (Sekunden, Stunden, Tage). Das Ergebnis liegt zwischen 0 und 1 und wird meist in Prozent angegeben.

Alternative Schreibweise (mit MTBF/MTTR)

A = MTBF / (MTBF + MTTR)

MTBF = Mean Time Between Failures (mittlere Zeit zwischen Ausfällen), MTTR = Mean Time To Repair. Wird in L2 ausführlich behandelt.

Wichtig: „Verfügbarkeit" bedeutet nicht „läuft" – es bedeutet „funktioniert für den Anwendungszweck". Ein Server, der zwar an ist, aber keine Anfragen mehr beantwortet, ist nicht verfügbar.

2) Die Neun-Regel – berühmte Schwellenwerte

In der IT-Branche werden Verfügbarkeits-Klassen mit der Anzahl der Neunen ausgedrückt. „Drei Neunen" bedeutet 99,9%, „fünf Neunen" 99,999%. Mit jeder zusätzlichen Neun reduziert sich die erlaubte Ausfallzeit um den Faktor 10. Hier die Übersicht:

Die Neunen-Klassen und ihre Ausfallzeiten

Verfügbarkeit

Maximale Downtime pro Jahr

Klassenbeisp.

90% eine Neun

36,5 Tage / Jahr

Heim-PC

99% zwei Neunen

3 Tage 15 Std / Jahr

Basic IT

99,9% drei Neunen

8 Std 45 Min / Jahr

Standard SLA

99,99% vier Neunen

52 Min 35 Sek / Jahr

Premium SLA

99,999% fünf Neunen

5 Min 15 Sek / Jahr

Carrier Grade

99,9999% sechs Neunen

32 Sek / Jahr

Mission Critical

Die berühmten „fünf Neunen" kommen aus der Telekommunikations-Branche – AT&T und Bell Labs hatten das als Ziel für Vermittlungsstellen. 5 Minuten pro Jahr klingt machbar, ist aber technisch extrem anspruchsvoll: einzelne Server schaffen das nicht, nur redundante Cluster mit automatischem Failover.

3) Die Tabelle in der Praxis nutzen

Hinter der Neun-Tabelle steckt eine einfache Mathematik. Lass uns das nachvollziehen. Ein Jahr hat:

365 Tage × 24 Stunden = 8.760 Stunden
8.760 × 60 = 525.600 Minuten
525.600 × 60 = 31.536.000 Sekunden

Davon ist 99,9% = 8.751,24 Stunden „up". Die Differenz von 8,76 Stunden ist die maximal akzeptable Downtime. Hier zwei konkrete Rechnungen:

Beispiel-Rechnungen

Gegeben: SLA = 99,9%

Stunden pro Jahr: 8760

Erlaubte Uptime: 8760 × 0,999 = 8751,24 h

Erlaubte Downtime: 8760 − 8751,24 = 8,76 h

≈ 8 Stunden 45 Minuten pro Jahr

Gegeben: SLA = 99,99%

Erlaubte Downtime: 8760 × (1 − 0,9999) = 8760 × 0,0001

= 0,876 h = 52,56 Min

≈ 52 Minuten 35 Sekunden pro Jahr

Die Faustregel: jede zusätzliche „Neun" reduziert die erlaubte Downtime um den Faktor 10. Von 99,9% (8h45min) auf 99,99% (52min) auf 99,999% (5min). Das macht die hohen Verfügbarkeits-Klassen so wertvoll und so teuer.

4) Visualisierung als Uptime-Bar

Damit du ein Gefühl bekommst, wie wenig „99%" eigentlich ist – hier die Klassen als Balken nebeneinander. Die Skala ist absichtlich nicht-linear, da sonst alle ab 99% gleich aussehen würden:

Verfügbarkeits-Klassen visualisiert

Uptime (grün) vs. Downtime (rot) pro Jahr

99,0%3,65 Tage Downtime

DOWN

99,9%8,76 Std Downtime

DOWN

99,99%52 Min Downtime

DOWN

99,999%5 Min Downtime

DOWN

99,9999%32 Sek Downtime

Die rote Fläche schrumpft schnell, aber die Mathematik dahinter wird brutaler: für jede Stufe musst du den Mean Time To Recover (MTTR) entsprechend reduzieren. Mehr in L2.

5) Geplante vs. ungeplante Downtime

Eine wichtige Unterscheidung im SLA-Vertragstext: zählt geplante Wartung als Downtime oder nicht? Beide Sichtweisen existieren:

Nur ungeplante Downtime zählt: Wartungsfenster sind vereinbart und werden nicht eingerechnet. Häufig bei klassischen Hosting-Anbietern. SLA leichter erreichbar.
Alle Downtime zählt: jede Minute, in der das System nicht voll funktioniert, ist Downtime – egal ob geplant. Strenger, üblich bei Cloud-Hyperscalern und kritischen Systemen.

In modernen Architekturen mit Rolling Updates (siehe K55) und Zero-Downtime-Deployments ist die Unterscheidung weniger relevant – Wartung passiert ohne sichtbare Auswirkung. Bei klassischen Setups muss man genau lesen was im Vertrag steht.

6) Verfügbarkeit messen vs. zusichern

Zwei verwandte aber unterschiedliche Konzepte:

Tatsächliche Verfügbarkeit (gemessen): was war im vergangenen Jahr wirklich der Wert? Aus Monitoring-Daten berechnet.
Zugesicherte Verfügbarkeit (SLA): was verspricht der Anbieter vertraglich? Mit Strafen bei Unterschreitung.

Eine zugesicherte 99,9% Verfügbarkeit ist nicht garantiert – sondern eine Vertragsklausel. Bei Nichterreichung gibt's typischerweise Service Credits (Gutschrift in Prozent der Monatsgebühr). Das deckt aber selten die echten Schäden bei Ausfällen ab.

7) SLAs großer Anbieter

Wie viel Verfügbarkeit versprechen die Hyperscaler? Ein Auszug der wichtigsten Cloud-SLAs (Stand 2024/2025, kann sich ändern):

SLA-Beispiele großer Cloud-Anbieter

AWS EC2

99,99%

Multi-AZ-Deployment, pro Region. Single-AZ niedriger (99,5%).

AWS S3

99,9%

Standard-Tier. Durability sogar 99,999999999% (11 Neunen).

Azure VMs

99,99%

Availability Sets / Zones. Single VM nur 99,9%.

GCP Compute

99,99%

Multi-Zone. Single Zone 99,5%.

Hetzner Cloud

99,9%

Pro VM, nicht-geplante Ausfälle.

Office 365

99,9%

Monatliche Berechnung, Service Credits.

Wichtig: die SLAs gelten pro Service und oft nur bei richtiger Architektur. Eine einzelne AWS-VM ohne Multi-AZ-Setup bekommt keine 99,99% SLA. Wer Hochverfügbarkeit will, muss aktiv redundant designen – das macht der Anbieter nicht automatisch.

8) Verfügbarkeit kombinieren – das Komponieren

Spannend wird's wenn mehrere Komponenten beteiligt sind. Eine Web-Anwendung besteht aus Frontend-Server, Datenbank, Load Balancer, Netzwerk. Wie berechnet sich die Gesamt-Verfügbarkeit?

Bei serieller Verkettung (alle müssen funktionieren) multiplizieren sich die Einzel-Verfügbarkeiten:

Serielle Komponenten: Gesamt = Produkt der Einzel-Werte

Web-Anwendung mit 3 seriellen Komponenten

Webserver

99,9%

Datenbank

99,9%

Netzwerk

99,95%

Gesamt

99,75%

Rechnung: 0,999 × 0,999 × 0,9995 = 0,9975 ≈ 99,75% ≈ 22 Stunden Downtime/Jahr.
Die Gesamt-Verfügbarkeit ist immer schlechter als die schlechteste Einzel-Komponente.

Bei paralleler Redundanz (einer reicht aus) ist die Berechnung anders. Die Ausfallwahrscheinlichkeiten multiplizieren sich:

Parallele Redundanz: 1 − (Ausfallwahrscheinlichkeiten multipliziert)

Zwei parallele Webserver mit Load Balancer

Server 1

99,0%

‖

Server 2

99,0%

Gesamt

99,99%

Rechnung: P(beide aus) = 0,01 × 0,01 = 0,0001 (0,01%). Verfügbarkeit = 1 − 0,0001 = 99,99%.
Zwei Server mit je 99,0% liefern zusammen 99,99% – wenn sie wirklich unabhängig sind. Magie der Redundanz.

Diese Mathematik ist der Grund, warum Redundanz der Schlüssel zur Hochverfügbarkeit ist. Aus 99% kann mit Verdopplung 99,99% werden. Aus 99,99% mit Verdopplung sogar 99,9999%. Wir behandeln das in L6 (Clustering).

9) Wichtiger Vorbehalt: unabhängige Ausfälle

Die obige Redundanz-Rechnung gilt nur wenn die Ausfälle unabhängig voneinander sind. In der Praxis ist das oft nicht der Fall:

Zwei Server im selben Rack → gleicher Stromkreis → korrelierter Ausfall
Zwei Festplatten aus derselben Charge → gleiche Materialfehler → korrelierter Ausfall
Zwei VMs auf dem selben Hypervisor → Host-Ausfall trifft beide
Zwei Server im gleichen Rechenzentrum → Brand betrifft beide
Zwei Anbieter mit gleicher Software-Version → gleicher Bug

Echte Hochverfügbarkeit erfordert echte Unabhängigkeit: verschiedene Racks, verschiedene Stromkreise, verschiedene Hardware-Chargen, verschiedene Rechenzentren, verschiedene Software-Versionen oder gar Anbieter. Das ist teuer, aber unausweichlich für hohe SLA-Klassen.

10) Was kostet eine zusätzliche Neun?

Eine alte Branchen-Faustregel: jede zusätzliche Neun verdoppelt mindestens die Kosten der Infrastruktur. Von 99% auf 99,9% relativ günstig, von 99,99% auf 99,999% schon sehr teuer. Konkrete Beispiele:

Verfügbarkeit	Typische Architektur	Kostenfaktor
99,0%	Einzelner Server, klassisches Backup	1×
99,9%	+ RAID, USV, Monitoring	2×
99,99%	+ Cluster, Load Balancer, Failover	5×
99,999%	+ Geo-Redundanz, mehrere Rechenzentren	15×
99,9999%	+ Multi-Region, Multi-Provider, Spezial-Hardware	50×+

Daher die Faustregel: Verfügbarkeits-Anforderungen nicht überspezifizieren. „Wir wollen fünf Neunen" klingt cool, kostet aber das 15-fache der Standard-Infrastruktur. Realistisch fragen: wie viel Downtime können wir tolerieren? Wie viel kostet uns 1 Stunde Ausfall? Daraus folgt das angemessene SLA-Ziel.

11) SLA, SLO, SLI – die drei Begriffe

Drei verwandte Abkürzungen, die du in modernen Setups (besonders DevOps, Site Reliability Engineering) hörst:

SLI – Service Level Indicator: eine konkrete Metrik, die du misst. Z.B. „Verfügbarkeit der API in Prozent", „Latenz unter 200ms in %".
SLO – Service Level Objective: das interne Ziel für eine SLI. Z.B. „SLI Verfügbarkeit ≥ 99,95%". Wird ständig überwacht.
SLA – Service Level Agreement: vertragliche Zusage gegenüber Kunden, oft mit Strafen. Konservativer als SLO. Z.B. „99,9% Verfügbarkeit, sonst 10% Gutschrift".

Best Practice: SLO ist immer strenger als SLA (Puffer für interne Probleme bevor der Kunde betroffen ist). SLIs werden in Monitoring-Dashboards (Grafana, Datadog) live verfolgt.

12) Error Budget – Verfügbarkeit als Werkzeug

Ein modernes Konzept aus Google's Site Reliability Engineering: das Error Budget. Wenn dein SLO 99,9% ist, hast du ein „Budget" von 0,1% Downtime – das sind etwa 43 Minuten pro Monat. Solange du im Budget bist, kannst du:

Risikoreiche Deployments machen
Features schneller ausrollen
Wartungen durchführen

Wenn das Budget aufgebraucht ist, friert die Entwicklung weitere Risiken ein – Fokus auf Stabilität. Diese Sichtweise verbindet Verfügbarkeit mit Geschäfts-Entscheidungen: 100% Verfügbarkeit ist nicht das Ziel (zu teuer, zu langsam), sondern das vereinbarte Niveau einzuhalten – und das Budget bewusst zu nutzen.

13) Was du in K59 lernst

K59 baut auf diesem Verständnis auf. Die weiteren Lektionen zeigen, wie man Verfügbarkeit erreicht:

L2 – MTBF und MTTR: die zwei Kennzahlen die Verfügbarkeit messbar machen
L3 – SPoF identifizieren: die Achillesferse jedes Systems
L4 – USV: Schutz vor Stromausfällen
L5 – Load Balancing: Last verteilen, Redundanz nutzen
L6 – Clustering: Active-Active vs. Active-Passive
L7 – Failover: automatischer Wechsel im Notfall
L8 – Disaster-Recovery-Plan: was tun wenn alles ausfällt?
L9 – Business Continuity Plan: Geschäftsbetrieb sichern
L10 – IHK-Aufgaben

K59 ergänzt K57 (RAID) für Storage-Verfügbarkeit und K58 (Backup) für Datenwiederherstellung. Drei Kurse, die zusammen die Säulen der Daten- und System-Sicherheit bilden.

Zusammenfassung

Verfügbarkeit = Uptime / (Uptime + Downtime) oder MTBF / (MTBF + MTTR). Ausgedrückt in Prozent. Neun-Regel: 99% = 3,65 Tage Downtime/Jahr, 99,9% = 8h45min, 99,99% = 52min, 99,999% = 5min, 99,9999% = 32 Sek. Jede zusätzliche Neun reduziert Downtime um Faktor 10. Berechnung: Stunden/Jahr × (1 − SLA-Wert). Geplant vs. ungeplant: SLA-Vertrag genau lesen, was als Downtime zählt. SLAs großer Anbieter: AWS/Azure/GCP meist 99,99% bei Multi-AZ, Single 99,5-99,9%. Komposition: serielle Komponenten multiplizieren (Gesamt schlechter als Einzel), parallele Redundanz multipliziert Ausfallwahrscheinlichkeiten (Gesamt besser). Voraussetzung: echte Unabhängigkeit (verschiedene Racks, Stromkreise, RZ). Kosten: jede Neun verdoppelt mindestens Kosten. SLI/SLO/SLA: gemessene Metrik / internes Ziel / vertragliche Zusage. Error Budget: 100% Verfügbarkeit ist nicht das Ziel – das vereinbarte Niveau einhalten und Budget bewusst nutzen.

Verfügbarkeit berechnen: die Neun-Regel

1) Was ist Verfügbarkeit überhaupt?

2) Die Neun-Regel – berühmte Schwellenwerte

3) Die Tabelle in der Praxis nutzen

4) Visualisierung als Uptime-Bar

5) Geplante vs. ungeplante Downtime

6) Verfügbarkeit messen vs. zusichern

7) SLAs großer Anbieter

8) Verfügbarkeit kombinieren – das Komponieren

9) Wichtiger Vorbehalt: unabhängige Ausfälle

10) Was kostet eine zusätzliche Neun?

11) SLA, SLO, SLI – die drei Begriffe

12) Error Budget – Verfügbarkeit als Werkzeug

13) Was du in K59 lernst

Zusammenfassung

Anmelden

Account Registrieren und Fortschritt Speichern!

Modal title