Disaster-Recovery-Plan erstellen

Bisher hast du Bausteine gelernt: USV, Cluster, Failover, Load Balancing. Aber was passiert wenn die Katastrophe wirklich passiert? Wer entscheidet was? Wer ruft wen an? Welche Schritte werden in welcher Reihenfolge ausgeführt? Genau dafür gibt's den Disaster-Recovery-Plan (DRP) – ein dokumentiertes, getestetes Vorgehen für IT-Katastrophen.

Ein DRP ist kein nice-to-have, sondern Pflicht in vielen Branchen (ISO 27001, BSI Grundschutz, NIS-2). Diese Lektion zeigt dir die Komponenten eines DRPs, den Lebenszyklus von Planung über Test bis Aktivierung, die Unterschiede zwischen Hot/Warm/Cold-Sites, und gibt eine Checkliste für den Aufbau. In der IHK-Prüfung gehört das Thema zum Pflichtwissen für FISI.

1) Was ist Disaster Recovery?

Disaster Recovery (DR) bezeichnet alle Maßnahmen, die nötig sind um IT-Systeme nach einer Katastrophe wiederherzustellen. Eine Katastrophe in diesem Sinne ist jedes Ereignis, das die normale IT-Operation grundlegend stört – größer als ein einzelner Ausfall (siehe L3) und nicht durch normale HA-Maßnahmen lösbar.

Beispiele für DR-relevante Katastrophen:

Naturereignisse: Brand, Wasser, Erdbeben, Sturm zerstören Rechenzentrum
Cyberangriffe: Ransomware verschlüsselt komplette Infrastruktur
Großflächige Stromausfälle: über die USV-Reichweite hinaus
Pandemie: Personal nicht verfügbar (Lehre aus COVID-19)
Sabotage / Insider-Angriff: gezielte Zerstörung von Daten
Cloud-Provider-Ausfall: AWS-Region down, Konto gesperrt
Versorger-Ausfall: Internet-Provider, Strom-Versorgung, Kühlung

Wichtig: ein einzelner Server-Ausfall ist kein Disaster – dafür gibt's HA/Failover. Datacenter-Komplettausfall oder Komplett-Verschlüsselung hingegen sind Disaster, die einen DRP brauchen.

2) Der DR-Lebenszyklus

Disaster Recovery ist keine einmalige Aktion, sondern ein kontinuierlicher Prozess. Vier Phasen wiederholen sich:

Die vier Phasen des DR-Lebenszyklus

📋

Prepare

Plan erstellen, BIA durchführen, Backups einrichten, Standby-Sites bereitstellen, Teams trainieren

🚨

React

Disaster erkannt → Plan aktivieren, Krisenstab einberufen, Eskalation, Kommunikation

🔧

Recover

Systeme wiederherstellen, auf DR-Site umziehen, Services Stück für Stück hochfahren, validieren

🔍

Review

Postmortem, Lessons Learned, Plan aktualisieren, Tests planen → wieder Prepare

Wichtig: 80% der Arbeit liegt in „Prepare". Wenn die Katastrophe da ist, ist es zu spät zum Planen. Gute DR-Pläne sehen aus wie Drehbücher – jeder weiß was zu tun ist, in welcher Reihenfolge, mit welchen Kontakten.

3) Komponenten eines DR-Plans

Ein vollständiger DR-Plan ist ein umfangreiches Dokument. Die wichtigsten Bausteine:

Bausteine eines vollständigen DR-Plans

1Risikoanalyse & BIA

Welche Risiken bedrohen das Unternehmen? Welche Geschäftsprozesse sind wie kritisch?

Identifikation der kritischen Prozesse
Bewertung nach Auswirkung auf das Geschäft
RTO/RPO-Vorgaben pro System (siehe K58 L6)
Maximum Tolerable Period of Disruption (MTPD)

2Recovery-Strategie

Wie wird im Disaster-Fall wiederhergestellt?

DR-Site (Hot, Warm, Cold – siehe nächster Abschnitt)
Backup-Strategie (3-2-1, siehe K58)
Replikations-Strategien für Daten
Cloud vs. eigene Infrastruktur als Fallback

3Rollen & Verantwortlichkeiten

Wer macht im Ernstfall was?

Disaster Recovery Manager (DRM): Gesamt-Leitung
Krisenstab: leitende Personen mit Entscheidungsbefugnis
Recovery-Teams: pro Bereich (Netzwerk, Server, DB, Anwendung)
Kommunikations-Team: intern und extern
Vertretungsregelungen für alle Rollen

4Kommunikations-Plan

Wer wird wie informiert?

Kontaktlisten mit privaten Telefonnummern
Eskalations-Matrix (wer entscheidet was)
Kommunikation an Kunden (Status-Page, E-Mail)
Kommunikation an Presse, Aufsichtsbehörden
Out-of-Band-Kommunikation falls Mail/Slack down

5Recovery-Prozeduren (Runbooks)

Schritt-für-Schritt-Anleitungen pro System.

Reihenfolge der Wiederherstellung (kritisch zuerst)
Konkrete Befehle, Konfigurationen, Zugangsdaten-Vault
Failover-Prozeduren zur DR-Site
Validierungs-Schritte (funktioniert es?)
Rollback-Optionen falls etwas schiefgeht

6Wiederherstellungs-Reihenfolge

In welcher Reihenfolge werden Systeme hochgefahren?

Zuerst: Infrastruktur (Netzwerk, DNS, AD, Stromversorgung)
Dann: Datenbanken, Storage-Systeme
Dann: kritische Anwendungen
Zuletzt: nicht-kritische Systeme
Abhängigkeiten klar dokumentieren

7Test-Plan

Wie und wann wird der DRP getestet?

Tabletop-Exercises (auf Papier durchgehen)
Walkthrough-Tests (Schritte ohne reale Aktion)
Simulationen (Teilsysteme)
Full-Scale-DR-Drill (jährlich)
Test-Protokolle und Lessons Learned

8Wartung & Updates

Plan bleibt nicht statisch.

Quartalsweise Review der Kontaktdaten
Halbjährliche Aktualisierung der Systeminventare
Nach jeder größeren Änderung am IT-Setup
Nach jedem realen Disaster oder Test
Versionierung mit Änderungs-Log

4) DR-Site-Typen: Hot, Warm, Cold

Ein zentraler Baustein vieler DR-Pläne ist die DR-Site – ein zweiter Standort, an den im Notfall umgezogen wird. Es gibt drei Klassen, die sich in Bereitschaftsgrad und Kosten unterscheiden:

DR-Site-Klassen

❄ Cold Site🏢

Leerer Raum mit Strom, Klima, Netzwerk – aber keine Hardware. Im Disaster-Fall muss erst Hardware geliefert, installiert und konfiguriert werden.

RTO:Tage

RPO:tägliche Backups

Kosten:niedrig

Einsatz:unkritische Systeme

🌤 Warm Site🖥

Hardware ist installiert, aber nicht aktiv. Daten werden regelmäßig (täglich/stündlich) repliziert. Im Ernstfall muss aktiviert und Daten ggf. nachgeladen werden.

RTO:Stunden

RPO:Stunden

Kosten:mittel

Einsatz:wichtige Systeme

🔥 Hot Site⚡

Komplett identische Infrastruktur, kontinuierliche Replikation. Im Ernstfall sofort übernahmebereit – oft sogar Active-Active mit echtem Live-Traffic.

RTO:Min - Sek

RPO:~ 0

Kosten:hoch

Einsatz:geschäftskritisch

Wahl der Site hängt von RTO/RPO ab. Tier-1-Systeme brauchen Hot Site. Tier-2-Systeme oft Warm Site. Tier-3/4-Systeme kommen mit Cold Site aus. Mischformen üblich: kritische Daten warm/hot, Rest cold. Mehr zu Tier-Modellen in K58 L6.

5) Moderne Cloud-DR-Strategien

Die Cloud hat DR drastisch verändert. Statt eines physischen Standby-Rechenzentrums kann man flexibel in der Cloud DR-Setups aufbauen. AWS, Azure, Google haben formalisierte DR-Strategien:

Backup & Restore: Daten in Cloud sichern, im Ernstfall neu deployen. Günstigste, langsamste Variante (Cold-Site-Äquivalent).
Pilot Light: minimale Cloud-Ressourcen laufen ständig (z.B. nur DB), im Ernstfall werden Restliche provisioniert. Warm-Site-Äquivalent.
Warm Standby: skalierte Version der Production läuft in Cloud, im Ernstfall hochskalieren. Faster Recovery.
Multi-Site Active-Active: Produktion läuft simultan in mehreren Regionen, Lastverteilung normal. Im Ernstfall einfach die ausgefallene Region rausnehmen. Hot-Site-Äquivalent.

Vorteil der Cloud: pay-as-you-go ermöglicht günstigeres Stand-By (Pilot Light kostet vielleicht 10% der Production-Kosten). Klassisches Hot-Site-Setup mit eigenem Rechenzentrum ist dagegen sehr teuer.

6) Eskalations-Stufen im DR-Fall

Nicht jeder Vorfall ist ein Disaster. Die meisten DR-Pläne haben Eskalations-Stufen, um angemessen zu reagieren:

Eskalations-Stufen

Level

Beschreibung

Verantwortung

Minor Incident – einzelner Service down, automatischer Failover greift, kein Eingreifen nötig

On-Call IT

Major Incident – mehrere Services betroffen, manuelle Schritte nötig, größerer Service nicht erreichbar

IT-Lead + Team

Critical Incident – geschäftskritische Systeme down, mehrere Stunden Ausfall absehbar

CTO/CIO

Disaster – kompletter Standort-Ausfall, Cyberangriff mit großflächiger Wirkung, DRP-Aktivierung

Krisenstab / Vorstand

Wichtig: klar definierte Auslöser. Wer entscheidet wann was eskaliert wird? Auf Level 3 sollte automatisch eskaliert werden bei: 4+ Stunden RTO, geschäftskritische Systeme down, Cyberangriff bestätigt. Auf Level 4 bei: Standort-Ausfall, RPO/RTO verfehlt, externe Kommunikation nötig.

7) DR-Plan-Aktivierung: der Workflow

Wie läuft die Aktivierung eines DR-Plans ab? Typischer Workflow von der Erkennung bis zur Recovery:

DRP-Aktivierungs-Workflow

Incident-Detection & Assessment

Vorfall wird erkannt (Monitoring, User-Reports, On-Call). Erste Einschätzung: ist das ein normaler Incident oder Disaster?

Eskalation entscheiden

Bei Verdacht auf Disaster wird der DRM kontaktiert. Dieser ruft den Krisenstab ein. Vorab definierte Kriterien helfen bei der Entscheidung.

DRP offiziell aktivieren

Der Krisenstab erklärt formal den Disaster-Fall. Alle Beteiligten werden benachrichtigt. Kommunikations-Plan wird umgesetzt.

Schadensaufnahme

Detaillierte Analyse: was genau ist betroffen, was funktioniert noch? Diese Informationen fließen in die Recovery-Priorisierung.

Failover zur DR-Site

Je nach Strategie: DNS-Failover, manuelles Hochfahren von Cold Site, Aktivieren der Warm Site. Recovery-Teams arbeiten parallel.

Daten wiederherstellen

Letzte Backups einspielen, Replikations-Lag aufholen. Priorität: Daten verfügbar zu machen.

Services hochfahren

In dokumentierter Reihenfolge: erst Infrastruktur (Netzwerk, DNS, AD), dann DBs, dann Apps. Validierung nach jedem Schritt.

Validierung & Tests

Smoke-Tests gegen die wiederhergestellten Services. Funktioniert alles? Sind Daten konsistent? Können User normal arbeiten?

Service offiziell wieder verfügbar

Kommunikation an User, Kunden, Aufsichtsbehörden. Status-Page aktualisiert. Krisenstab beendet Notbetrieb.

Recovery-Reparatur & Failback

Ursprünglichen Standort reparieren, Daten zurück-replizieren, in Wartungsfenster Failback ausführen.

Postmortem & Lessons Learned

Was lief gut, was nicht? Welche Probleme sind aufgetreten? Wie kann der DRP verbessert werden? Dokumentation, Plan-Update.

Wichtig: dieser Workflow muss in Runbooks dokumentiert sein. Im echten Disaster ist niemand klar im Kopf – das Drehbuch leitet durch die Schritte. Mehr zu Failover-Mechanik in L7.

8) DR-Plan-Test-Methoden

Ein ungetesteter DR-Plan ist wie ungetestetes Backup – Hoffnung statt Garantie. Tests in vier Stufen:

Tabletop Exercise: Krisenstab versammelt sich, geht den DRP durch, diskutiert Szenarien auf dem Papier. Günstig, deckt logische Lücken auf.
Walkthrough Test: Schritte werden detailliert durchgegangen, ohne tatsächlich Aktionen auszuführen. Prüft Vollständigkeit der Prozeduren.
Simulation: einzelne Komponenten werden tatsächlich aktiviert (z.B. DR-Site hochfahren) – ohne aber Production zu beeinträchtigen.
Full-Scale DR Drill: kompletter Failover zur DR-Site, Production läuft dort, später Failback. Echter Stresstest, aber Risiko-behaftet.

Empfohlene Frequenzen: Tabletop quartalsweise, Walkthrough halbjährlich, Simulation jährlich, Full-Scale alle 1-2 Jahre. Compliance-Anforderungen (ISO 27001, NIS-2) verlangen oft jährliche dokumentierte Tests.

9) Recovery-Reihenfolge planen

Im Disaster-Fall können nicht alle Systeme gleichzeitig hochgefahren werden. Die Reihenfolge ist kritisch:

Infrastruktur: Strom, Netzwerk, DNS, NTP – das Fundament
Authentifizierung: Active Directory, LDAP, Kerberos – ohne das keine Logins
Storage: SAN, NAS, File-Server
Datenbanken: Restore von Backups, Replikation aktivieren
Middleware: Message-Queues, Caches (Redis), API-Gateways
Anwendungen (kritisch): ERP, Online-Shop, Kunden-Portal
Anwendungen (nicht-kritisch): interne Tools, Reporting
End-User-Services: Mail, Office, VPN

Abhängigkeiten müssen dokumentiert sein. Wenn die Anwendung das AD braucht, das DNS, das NTP braucht – muss alles in dieser Reihenfolge hochgefahren werden. Sonst Kaskaden-Fehler.

10) Doku-Vorlage für DR-Plan

So sieht ein DR-Plan-Dokument typischerweise aus. Beispiel-Struktur:

Beispiel-Struktur eines DR-Plan-Dokuments

1. Einleitung

Zweck, Geltungsbereich, Verantwortliche, Versionshistorie

2. Begriffsbestimmung & Aktivierungs-Kriterien

Was zählt als Disaster? Wer aktiviert den Plan?

3. Rollen & Verantwortlichkeiten

DRM, Krisenstab, Recovery-Teams, Kommunikations-Team

4. Kontaktverzeichnis

Alle relevanten Personen mit Telefon, E-Mail, Vertretung

5. System-Inventar

Alle Systeme mit Priorität, RTO/RPO, Abhängigkeiten

6. Recovery-Strategien

DR-Site, Backup-Strategie, Replikation

7. Aktivierungs-Workflow

Schritt-für-Schritt von Detection bis Recovery

8. Recovery-Prozeduren (Runbooks)

Pro System: Schritte, Befehle, Validierung

9. Kommunikations-Plan

Intern, extern, Behörden, Medien

10. Test-Plan & Schulungen

Frequenz, Methoden, Dokumentation

11. Anhänge

Netzwerk-Diagramme, Zugangsdaten-Verweise, Verträge mit Anbietern

Wichtig: der Plan muss zugänglich sein wenn die IT down ist. Backup-Kopie als PDF auf USB-Sticks, ausgedruckt in Tresor, in einer Cloud die nicht die ausgefallene ist. Sonst: dein DRP liegt verschlüsselt auf dem Server, den du retten willst.

11) DRP vs. BCP – die Abgrenzung

Häufig verwechselt: DRP (Disaster Recovery Plan) und BCP (Business Continuity Plan). Die Unterscheidung:

DRP: fokussiert auf IT-Wiederherstellung. Wie kriegen wir Server, Apps, Daten wieder online?
BCP: fokussiert auf den Geschäftsbetrieb. Wie hält die Firma im Notfall funktionsfähig (auch ohne IT, ohne Büro, ohne Personal)?

Der DRP ist ein Teil des BCP. Mehr zum BCP in L9.

12) Häufige DR-Plan-Probleme

Auch hier klassische Fallstricke:

Plan veraltet: nach 2 Jahren ohne Update sind Kontakte falsch, Systeme anders, Prozeduren obsolet
Plan unauffindbar: liegt auf dem ausgefallenen Server
Nie getestet: theoretisch perfekt, praktisch unbrauchbar
Nur ein Admin kennt sich aus: ohne ihn nichts möglich (Bus-Faktor)
Zu komplex: 500-seitiges Dokument, im Stress unbrauchbar
Keine Vertretungsregelung: Hauptverantwortlicher im Urlaub
Plan nur in deutscher Sprache: ausländische Mitarbeiter ausgeschlossen
Backup-Strategie nicht 3-2-1: alle Kopien fallen mit aus
DR-Site im selben Stromnetz / Erdbeben-Zone: gleicher Ausfall trifft beide
Kein Out-of-Band-Kommunikation: Mail+Slack ausgefallen, niemand erreichbar
Lieferanten-Abhängigkeit ungeklärt: brauchen wir den Cloud-Anbieter, der gerade ausgefallen ist?
Compliance vergessen: DSGVO-Meldepflichten, Aufsichtsbehörden-Kontakte

13) DR und Compliance

In vielen Branchen ist ein DR-Plan rechtlich vorgeschrieben:

ISO 27001: Kontrolle A.5.30 (ICT readiness) und A.8.14 (Redundanz) verlangen dokumentierte DR-Maßnahmen
BSI IT-Grundschutz: Baustein DER.2.1 (Behandlung von Sicherheitsvorfällen)
NIS-2 (EU): kritische Sektoren müssen Disaster-Pläne und Tests vorweisen
BAIT/VAIT/KAIT: Banken/Versicherungen müssen Notfallkonzepte haben
HIPAA (US, Gesundheitswesen): Contingency-Plan-Anforderung
SOC 2: Type-II-Audits prüfen DR-Tests
Cyber-Versicherung: viele Anbieter fordern dokumentierte DRP

Wer ohne DRP arbeitet, riskiert nicht nur den IT-Ausfall – sondern auch Bußgelder, Versicherungs-Probleme und Reputationsschäden. Praktisch alle größeren Unternehmen müssen DRP haben.

Zusammenfassung

Disaster Recovery (DR) = Wiederherstellung nach IT-Katastrophen jenseits normaler Ausfälle. DR-Lebenszyklus: Prepare → React → Recover → Review (kontinuierlich). 8 Plan-Komponenten: Risikoanalyse/BIA, Recovery-Strategie, Rollen, Kommunikation, Runbooks, Wiederherstellungs-Reihenfolge, Test-Plan, Wartung. DR-Site-Typen: Cold (Tage RTO, günstig), Warm (Stunden RTO, mittel), Hot (Min/Sek RTO, teuer). Cloud-DR-Strategien: Backup-Restore, Pilot Light, Warm Standby, Multi-Site Active-Active. Eskalations-Stufen: Level 1 (Minor) bis Level 4 (Disaster, Krisenstab). Aktivierungs-Workflow: 11 Schritte von Detection bis Postmortem. Wiederherstellungs-Reihenfolge: Infrastruktur → Auth → Storage → DB → Middleware → kritische Apps → andere → End-User. Test-Methoden: Tabletop, Walkthrough, Simulation, Full-Scale Drill. DRP vs. BCP: DRP = IT, BCP = Geschäftsbetrieb (Übergeordnet). Häufige Probleme: veralteter Plan, unauffindbar (auf ausgefallenem Server), nie getestet, Bus-Faktor, zu komplex. Compliance: ISO 27001, BSI Grundschutz, NIS-2, BAIT, HIPAA, SOC 2 fordern DRP.