RTO und RPO

Wenn du in einem Vorstellungsgespräch zu Backup-Themen befragt wirst oder in der IHK-Prüfung sitzt, kommen früher oder später zwei Abkürzungen: RTO und RPO. Sie sind die wichtigsten Kennzahlen jeder Backup- und Disaster-Recovery-Strategie und beantworten zwei Schlüsselfragen: Wie schnell sind wir wieder online? und Wie viele Daten dürfen wir maximal verlieren?

In dieser Lektion lernst du beide Begriffe sauber zu unterscheiden, ihre Auswirkungen auf die Backup-Strategie zu verstehen und konkrete Beispiele für verschiedene Service-Tiers zu kennen. Anschließend siehst du, wie RTO/RPO mit den verwandten Kennzahlen MTBF und MTTR zusammenhängen.

1) Das Szenario: ein Disaster passiert

Stell dir vor: Donnerstag, 14:32 Uhr. Dein Datenbankserver crasht durch einen Hardware-Defekt. Daten sind weg, das System ist down. Jetzt zählen zwei Dinge:

Erstens: wie lange dauert es, bis das System wieder läuft? Eine Minute? Eine Stunde? Drei Tage? Diese Zeitspanne ist deine Recovery-Zeit. Je länger der Ausfall, desto höher die Kosten.

Zweitens: wie aktuell sind die wiederhergestellten Daten? Vom letzten Backup um Mitternacht? Von vor einer Stunde? Live? Die Lücke zwischen dem letzten gesicherten Datenstand und dem Crash-Zeitpunkt sind verlorene Daten – Bestellungen, Kundeninteraktionen, Datenbankänderungen.

Für genau diese zwei Fragen gibt es die Kennzahlen RTO und RPO. Wer eine Backup-Strategie plant, definiert zuerst diese beiden Werte – alles andere folgt daraus.

2) Die zentrale Timeline-Visualisierung

Am besten verstehst du beide Begriffe an einer Zeitleiste. In der Mitte ist der Moment des Disasters. Davor liegt der letzte Backup-Zeitpunkt, dahinter der Moment der Wiederherstellung:

RTO und RPO im Zeitstrahl

Letzter

Backup

💥

DISASTER

System

wieder online

← RPO →

Recovery Point Objective
Max. erlaubter Datenverlust

← RTO →

Recovery Time Objective
Max. erlaubte Ausfallzeit

Merke: RPO blickt zurück (wieviel Daten dürfen wir verlieren?), RTO blickt nach vorne (wie schnell sind wir wieder da?). Beide Werte werden vom Business festgelegt – nicht von der IT. Die IT setzt um.

3) RTO – Recovery Time Objective

Die Recovery Time Objective ist die maximal akzeptable Zeitspanne vom Eintritt eines Ausfalls bis zur Wiederherstellung des Betriebs. Sie beantwortet die Frage: „Wie lange dürfen wir maximal offline sein?"

RTO genauer erklärt

RTO

Recovery Time Objective

RTO = Zeit (Disaster → System wieder online)

Beschreibt die maximale Ausfalldauer, die das Unternehmen tolerieren kann. Beinhaltet: Fehlererkennung + Entscheidung + Wiederherstellungs-Prozess + Tests + Freigabe für Endnutzer.

„Wenn jetzt alles down geht – wann müssen wir spätestens wieder live sein, damit das Geschäft nicht zerstört wird?"

Typische RTO-Werte aus der Praxis:

RTO = 0 oder fast 0: Notaufnahme-Systeme, Flugverkehrskontrolle, Hochfrequenzhandel. Erfordert echte Hochverfügbarkeit, keine reinen Backups
RTO = wenige Minuten: E-Commerce-Plattformen, Online-Banking, Telefonie
RTO = wenige Stunden: ERP-Systeme, interne Geschäftsanwendungen, CRM
RTO = ein Tag: Reporting-Systeme, Test-Umgebungen, Archive
RTO = mehrere Tage: selten genutzte Spezial-Systeme, historische Daten

Wichtig: ein niedriger RTO ist teurer. Wer RTO = 0 will, braucht Hot-Standby-Systeme, geo-redundante Cluster, automatisches Failover. Das kostet sehr viel mehr als Backups mit RTO = 4 Stunden. Deshalb wird RTO pro System festgelegt – nicht pauschal für die ganze Firma.

4) RPO – Recovery Point Objective

Die Recovery Point Objective ist die maximal akzeptable Datenmenge (gemessen in Zeit), die im Falle eines Ausfalls verloren gehen darf. Sie beantwortet die Frage: „Welche Daten dürfen wir maximal verlieren?"

RPO genauer erklärt

RPO

Recovery Point Objective

RPO = Zeit (letzter brauchbarer Datenstand → Disaster)

Beschreibt die maximal akzeptable Datenlücke zwischen letztem Backup und dem Ausfallzeitpunkt. Bestimmt direkt die Backup-Frequenz: RPO = 24h → tägliches Backup reicht. RPO = 5 min → Continuous Replication.

„Welche Daten der letzten Zeit dürfen wir verlieren, ohne das Business kaputtzumachen?"

Typische RPO-Werte und ihre Implikationen:

RPO = 0: kein Datenverlust akzeptabel. Erfordert synchrone Replikation (jede Transaktion wird sofort auf 2 Systeme geschrieben)
RPO = wenige Sekunden bis Minuten: erfordert kontinuierliche Replikation (z.B. asynchrone DB-Replikation, Log-Shipping)
RPO = 1 Stunde: stündliche Snapshots oder inkrementelle Backups
RPO = 24 Stunden: tägliches Backup reicht – aber im Worst Case sind 23h59 Daten weg
RPO = 1 Woche: wöchentliches Backup, akzeptabel für reine Archive

Auch hier: niedriger RPO = teurer. RPO = 0 erfordert teure Cluster-Technologie. RPO = 24h kann mit einem einfachen nächtlichen Backup-Job realisiert werden. Wieder gilt: RPO wird vom Business festgelegt, basierend auf der Frage „Was kostet uns der Verlust dieser Daten?"

5) RTO vs. RPO im Direktvergleich

Beide Werte werden oft verwechselt. Hier nebeneinander:

RTO und RPO – die Unterschiede

RPO

blickt zurück

Datenverlust-Toleranz: wie viele Daten dürfen wir verlieren? Bestimmt die Backup-Frequenz. Geringerer RPO = häufigere Backups, mehr Speicher.

RTO

blickt nach vorne

Ausfallzeit-Toleranz: wie lange dürfen wir offline sein? Bestimmt die Recovery-Technologie. Geringerer RTO = schnellere Restore-Mechanismen, oft HA-Cluster.

Eine Anekdote zur Merkhilfe: RPO = Punkt (Point) in der Vergangenheit, an dem die Daten noch gut waren. RTO = Zeit (Time), die wir bis zur Wiederherstellung haben. P kommt vor T – RPO zeitlich vor RTO.

6) Verschiedene Service-Tiers

Nicht jedes System braucht den gleichen Schutz. In der Praxis werden Systeme in Tiers eingeteilt – nach Kritikalität fürs Geschäft. Jeder Tier bekommt eigene RTO/RPO-Vorgaben:

Typisches Tier-Modell für RTO/RPO

Tier

Beschreibung

RTO

RPO

Technologie

Tier 0

Mission-Critical (Trading, Notfall-Systeme)

< 1 Min

Sync-Replikation, HA-Cluster

Tier 1

Geschäftskritisch (E-Commerce, ERP)

1-4 Std

15 Min

Async-Replikation, schnelles DR

Tier 2

Wichtig (CRM, interne Apps)

4-24 Std

1-4 Std

Stündl. Snapshots, Cloud-Backup

Tier 3

Standard (File-Server, Reporting)

1-3 Tage

24 Std

Tägliches Backup, klassisch

Tier 4

Archive, Test-Systeme

1 Woche+

1 Woche

Wöchentliches Backup, Tape

Diese Einteilung wird im Rahmen einer Business Impact Analyse (BIA) vorgenommen. Pro System wird ermittelt: Was kostet Ausfall pro Stunde? Welche Daten sind unersetzlich? Daraus folgt die Tier-Einstufung und damit RTO/RPO. Mehr dazu in K59 (HA/DR).

7) Konkrete Beispiele aus dem Alltag

Damit das nicht abstrakt bleibt – hier Szenarien aus dem echten Leben mit konkreten RTO/RPO-Werten:

RTO und RPO in der Praxis

🏥 Krankenhaus-Patientendaten

Ärzte müssen sofort auf Krankenakten zugreifen können. Datenverlust ist potenziell lebensgefährlich. Eingestuft als Tier 0/1.

RTO: < 15 MinutenRPO: ~ 0 (synchrone Replikation)

🛒 Online-Shop

Jede Minute Ausfall = entgangene Bestellungen. Datenverlust nach Sale-Stunden besonders kritisch. Typisch Tier 1.

RTO: ~ 1 StundeRPO: ~ 5 Minuten

💼 Internes CRM

Vertriebsmitarbeiter brauchen Kundendaten. Halber Tag Ausfall ärgerlich, aber überlebbar. Typisch Tier 2.

RTO: ~ 4 StundenRPO: ~ 1 Stunde

📊 Reporting-Datenbank

Wird nur für monatliche Reports genutzt. Ein Tag Ausfall okay, gestrige Daten reichen. Typisch Tier 3.

RTO: ~ 24 StundenRPO: ~ 24 Stunden

🗄 Steuer-Archiv (GoBD)

Daten von 2018, ein paar Tage Wartezeit beim Restore akzeptabel. Hauptsache: vorhanden für 10 Jahre. Tier 4.

RTO: 1-3 TageRPO: 1 Woche (Sicherungs-Zyklus)

🎮 Test-Spielserver

Wird nur intern genutzt, kann notfalls neu aufgesetzt werden. Niedrigste Priorität.

RTO: 1 WocheRPO: 1 Woche

8) Wie hängen RTO/RPO mit der Backup-Strategie zusammen?

Aus den Werten folgen unmittelbar konkrete technische Entscheidungen. Hier die Verbindungen:

Aus dem RPO ergibt sich die Backup-Frequenz: bei RPO = 1 Stunde brauchst du mindestens stündliche Backups. Bei RPO = 5 Minuten brauchst du Continuous Replication (Log-Shipping, Storage-Replikation, DB-Slaves). Bei RPO = 24h reicht ein nächtlicher Job. Die Backup-Art spielt ebenfalls eine Rolle – inkrementell kann häufiger laufen als Vollsicherung.

Aus dem RTO ergeben sich das Backup-Medium und die Restore-Technologie: bei RTO = 4 Stunden und 5 TB Daten brauchst du mindestens 350 MB/s Restore-Geschwindigkeit – also keine Cloud über schmale Leitung. Bei RTO = 15 Minuten brauchst du Hot-Standby-Systeme, die fertig sind und nur aktiviert werden. Bei RTO = 1 Tag reicht ein klassisches Tape-Restore.

9) Wie wird der RTO/RPO ermittelt?

Die Werte werden nicht beliebig gewählt, sondern systematisch ermittelt – das ist Aufgabe der Business Impact Analyse. Typischer Ablauf:

Geschäftsprozesse identifizieren: welche kritischen Prozesse hat das Unternehmen?
Abhängigkeiten ermitteln: welche IT-Systeme unterstützen welchen Prozess?
Ausfallkosten kalkulieren: was kostet Ausfall pro Stunde? (Umsatz, Vertragsstrafen, Reputation, Personal-Idle-Zeit)
Maximal tolerierbare Ausfallzeit (MTPD): ab wann wird's wirklich kritisch?
RTO ableiten: RTO < MTPD, mit Sicherheitspuffer
Datenverlust-Toleranz: welche Daten dürfen verloren gehen? (rekonstruierbar oder nicht)
RPO ableiten: aus Datenverlust-Toleranz
Mit Stakeholdern abstimmen: Business und IT müssen sich einig sein
Dokumentieren: schriftlich festhalten, regelmäßig reviewen

Wichtig: RTO/RPO sind Vorgaben, keine Wünsche. Wer „RTO = 15 Minuten" verlangt, muss auch das Budget für die nötige Infrastruktur bereitstellen.

10) Die Kostenkurve: niedriger RTO/RPO = exponentiell teurer

Eine wichtige Beobachtung aus der Praxis: die Kosten für niedrigere RTO/RPO steigen nicht linear, sondern exponentiell. Ein Sprung von „1 Tag" auf „4 Stunden" ist günstig. Von „4 Stunden" auf „15 Minuten" wird's teurer. Von „15 Minuten" auf „1 Minute" extrem teuer. Von „1 Minute" auf „0" oft astronomisch.

Kosten in Abhängigkeit vom RTO (qualitativ)

Kosten der Backup-/DR-Infrastruktur (relativ)

100×

RTO < 1 min
Hot-Standby

25×

RTO 15 min
Sync-Repl.

8×

RTO 1 Std
Warm-Standby

3×

RTO 4 Std
Schnell-Restore

1×

RTO 24 Std
Klass. Backup

Faustregel: jede Halbierung der RTO verdoppelt mindestens die Kosten. Deshalb ist es so wichtig, RTO/RPO ehrlich und realistisch festzulegen. „Wir wollen RTO = 0" klingt cool, kostet aber das Vielfache. Frage immer: rechtfertigt der Schaden die Kosten der Schutzmaßnahme?

11) Verwandte Kennzahlen: MTBF und MTTR

RTO/RPO sind Ziele. Es gibt auch Kennzahlen, die Realität messen. Die wichtigsten:

RTO/RPO und verwandte Begriffe

MTBF

Mean Time Between Failures – durchschnittliche Zeit zwischen zwei Ausfällen. Hardware-Hersteller geben das oft an, z.B. „Festplatte: MTBF 1,5 Mio Stunden". Misst Zuverlässigkeit.

MTTR

Mean Time To Repair/Recovery – durchschnittliche Zeit, bis ein Ausfall behoben ist. Die gelebte Recovery-Zeit, im Gegensatz zur Ziel-Zeit RTO. Wenn MTTR > RTO, hat man ein Problem.

MTTD

Mean Time To Detect – wie lange dauert es bis ein Ausfall überhaupt bemerkt wird? Ohne Monitoring kann das peinlich lange sein. Trägt zum MTTR bei.

MTPD

Maximum Tolerable Period of Disruption – absolute Schmerzgrenze. Wenn der Ausfall länger als MTPD dauert, droht das Aus des Geschäfts. RTO muss kleiner als MTPD sein.

SLA

Service Level Agreement – vertraglich zugesicherte Verfügbarkeit (z.B. „99,9% Uptime pro Jahr"). Definiert oft den maximal akzeptablen RTO und RPO.

Zusammenhang: SLA → MTPD → RTO/RPO → Backup-Strategie. Vom Vertrag zum technischen Setup. RTO/RPO sind die Brücke zwischen Geschäfts-Anforderung und IT-Umsetzung. Mehr zu Verfügbarkeit in K59.

12) Verfügbarkeit und Ausfallzeit

Wenn von „99,9% Verfügbarkeit" die Rede ist, klingt das viel. Lass uns rechnen, wie viel Ausfallzeit das pro Jahr bedeutet:

SLA	Ausfall pro Jahr	Ausfall pro Monat	Ausfall pro Woche
99% (zwei Neunen)	3 Tage 15 Std	7 Std 18 Min	1 Std 41 Min
99,9% (drei Neunen)	8 Std 45 Min	43 Min 49 Sek	10 Min 5 Sek
99,99% (vier Neunen)	52 Min 35 Sek	4 Min 22 Sek	1 Min
99,999% (fünf Neunen)	5 Min 15 Sek	26 Sek	6 Sek

Die berühmten „fünf Neunen" entsprechen also nur 5 Minuten Ausfall pro Jahr. Das ist nicht mit klassischen Backups erreichbar – das ist Hochverfügbarkeit mit redundanten, automatisch failoverenden Systemen. Praktische Grenze für Backup-basierte Wiederherstellung: meist 99,9% (drei Neunen). Mehr Verfügbarkeit braucht andere Architektur.

13) Beispielrechnung: kostenoptimale Strategie

Eine kleine Übung. Du sollst die Backup-Strategie für ein E-Commerce-System empfehlen:

Vorgaben: RTO = 1 Stunde, RPO = 15 Minuten
Datenmenge: 500 GB Datenbank, 2 TB Files
Tägliche Daten-Änderung: ~10 GB

Analyse: RPO = 15 min schließt klassische tägliche Backups aus. Du brauchst Continuous Backup oder Snapshot-Replikation. Optionen:

Datenbank: DB-Replikation mit Streaming Replication (PostgreSQL) oder Galera Cluster (MySQL) → RPO ~ 0
Files: 15-Minuten-Snapshots auf NAS, geo-redundant
Restore-Strategie: warm standby – zweites System ist bereit, muss nur aktiviert werden
Zusätzlich klassisches tägliches Backup für Langzeit-Recovery und Compliance

RTO = 1h ist mit Warm Standby gut machbar (Aktivierung dauert typisch 10-30 min). Das Setup ist nicht billig, aber dafür kriegt man Tier-1-Schutz.

Zusammenfassung

RPO (Recovery Point Objective) = maximal akzeptabler Datenverlust, blickt vom Disaster zurück. Bestimmt Backup-Frequenz: RPO 24h → tägliches Backup, RPO 15 min → Snapshots, RPO 0 → synchrone Replikation. RTO (Recovery Time Objective) = maximal akzeptable Ausfallzeit, blickt vom Disaster nach vorne. Bestimmt Recovery-Technologie: RTO 24h → klassisches Restore, RTO Stunden → Backup-Appliance, RTO Minuten → Warm/Hot Standby. Tier-Modell mit Tier 0 bis Tier 4 staffelt Systeme nach Kritikalität mit eigenen RTO/RPO-Werten. Wert-Ermittlung über Business Impact Analyse. Kosten steigen exponentiell mit sinkendem RTO/RPO. Verwandte Kennzahlen: MTBF (Zeit zwischen Ausfällen), MTTR (gelebte Recovery-Zeit), MTPD (Schmerzgrenze des Business), SLA (Vertrag). „Fünf Neunen" = 5 Min Ausfall/Jahr, nicht mit Backups allein erreichbar – braucht HA-Architektur (siehe K59). RTO/RPO sind die Brücke zwischen Geschäftsanforderung und IT-Umsetzung.