Rollback-Strategien

Egal wie sorgfältig getestet wird – jedes Deployment kann theoretisch schiefgehen. Production-Bugs, Performance-Probleme, Inkompatibilitäten mit der Infrastruktur. Die Frage ist nicht „ob", sondern „wann". Daher braucht jedes ernsthafte Deployment einen Rollback-Plan: was tun wir, wenn's kracht?

Diese Lektion zeigt verschiedene Rollback-Arten, das berüchtigte Datenbank-Rollback-Problem, wie Versionierung den Rollback einfacher macht, und welche Best Practices in der Branche etabliert sind. Pflicht-Wissen für jeden der Deployments verantwortet.

1) Was bedeutet Rollback überhaupt?

Ein Rollback ist die Rückkehr von einer neuen Version auf eine vorherige funktionierende Version. Der Begriff stammt aus dem englischen „to roll back" – zurückrollen. Klingt einfach – ist es aber nicht immer.

Der Wunsch beim Rollback: schnell zurück zum funktionierenden Zustand. In der Praxis hängt es von vielen Faktoren ab, wie schnell und sauber das geht:

Wurde nur Code geändert, oder auch Datenbank-Schema?
Welche Deployment-Strategie wurde genutzt?
Gibt es eine Backup-Version irgendwo bereit?
Sind Konfigurationsänderungen rückgängig zu machen?
Wie viele Server müssen umgestellt werden?

Rollback ist Risikomanagement: hoffen dass es nie nötig ist, aber bereit sein wenn doch.

2) Drei Hauptarten von Rollback

Es gibt grundsätzlich drei Wege auf ein Production-Problem zu reagieren. Welcher Weg passt, hängt von der Situation ab:

Die drei Rollback-Strategien

🔙 Sofortiger Rollback

in Sekunden bis Minuten

Zurück zur letzten Version. Bei kritischen Fehlern: App startet nicht, Fehlerquote ab Sekunde 1 hoch. Mit Blue-Green oder Canary in Sekunden möglich.

⏳ Verzögerter Rollback

Stunden bis Tage später

Bei subtilen Problemen: leichte Performance-Probleme, 5% mehr Errors. Erkennung dauert. Entscheidung nach Analyse.

🔧 Forward Fix

statt Rollback

Statt zurück: einen Hotfix-Patch deployen der das Problem behebt. Manchmal schneller als Rollback, besonders bei DB-Änderungen.

Die Wahl hängt ab von: Schweregrad (App down vs. kleiner UI-Bug), Komplexität der Änderungen (DB-Migration involved?), Confidence im Fix (haben wir die Ursache verstanden?).

3) Wann Rollback, wann Forward Fix?

Die Entscheidung kann schwierig sein, vor allem unter Stress. Hier eine Entscheidungshilfe als Decision Tree:

Decision Tree: Rollback oder Forward Fix?

Hat das Deployment DB-Migrationen?

Sind die Migrationen rückwärtskompatibel?

NEIN

→ Forward Fix

Rollback unmöglich/riskant

→ Rollback möglich

aber mit Vorsicht

NEIN

Verstehst du die Ursache?

NEIN

→ Sofort Rollback

erst zurück, dann analysieren

JA, Fix klar

→ Forward Fix

Patch deployen

Faustregel: Bei Unsicherheit immer zurück. Erst zur stabilen Version, dann in Ruhe analysieren. Forward Fix nur wenn du die Ursache verstehst und der Patch klar ist. „Wir reparieren das schnell live" endet oft in mehreren Stunden Downtime.

4) Rollback bei verschiedenen Deployment-Strategien

Die Geschwindigkeit und Sauberkeit eines Rollbacks hängt stark davon ab, welche Deployment-Strategie du nutzt:

Strategie	Rollback-Speed	Wie?
Big Bang	Langsam (Minuten)	Alte Version wieder neu ausrollen → Downtime!
Rolling Update	Mittel (Minuten)	Rolling zurück zur alten Version
Blue-Green	Sofort (Sekunden)	Load Balancer zurück auf alte Umgebung switchen
Canary	Sofort (Sekunden)	Traffic-Anteil auf neue Version → 0% setzen
Feature Flags	Sofort (Sekunden)	Flag deaktivieren, Code bleibt deployed

Genau deshalb sind Blue-Green und Canary bei kritischen Systemen so beliebt: der Rollback ist trivial. Bei einem Big-Bang-Deploy ist Rollback dagegen fast so aufwändig wie das ursprüngliche Deploy – und braucht wieder Downtime.

5) Das Datenbank-Rollback-Problem

Der Albtraum jedes Sysadmins: Datenbank-Migrationen. Während Code-Rollback meist trivial ist (alte Datei wieder hin), ist DB-Rollback oft unmöglich oder destruktiv:

Warum DB-Rollback so schwierig ist

DB Schema v1.0

users-Tabelle mit Spalten: id, email, name

→ migrate up →

DB Schema v2.0

name aufgesplittet in firstname + lastname (alte Spalte gelöscht)

⚠ Rollback-Problem: zurück zu v1.0 würde firstname+lastname wieder zu „name" zusammenführen. Während Production lief (5 Min, 10 Min, 1 Std?), wurden vielleicht neue User mit neuer Struktur eingetragen. Wie verteilst du die zurück auf das alte Format?

DB-Rollback ist fast nie trivial. Daten die im neuen Schema gesammelt wurden, müssen ins alte gemappt werden. Manchmal verlustbehaftet, manchmal unmöglich. Deshalb: DB-Migrationen mit besonderer Vorsicht planen.

6) Expand-and-Contract: Das Pattern für sichere DB-Migrationen

Die Lösung für das DB-Rollback-Problem heißt Expand and Contract – wir haben es kurz in L2 erwähnt. Hier konkret:

EXPAND-Phase: Schema wird erweitert ohne Bestehendes zu ändern. Neue Spalten oder Tabellen werden hinzugefügt. Alte bleiben unverändert. Beide App-Versionen können arbeiten.
Migrations-Phase: Daten werden in die neuen Strukturen kopiert. Hintergrund-Job, ohne Downtime.
Deploy: App wird auf die neue Version umgestellt. Sie nutzt die neuen Strukturen. Rollback ist hier noch trivial, weil alte Strukturen noch da sind.
Beobachten: einige Tage bis Wochen warten. Alles stabil? Bestätigt?
CONTRACT-Phase: alte Strukturen jetzt sicher entfernen. Ab hier ist Rollback nicht mehr möglich, aber das System läuft bereits seit Tagen stabil.

Vorteil: jederzeit Rollback möglich während der kritischen Phase. Nachteil: komplexer und langsamer. Lohnt sich aber bei Production-DBs mit echten Nutzern.

7) Versions-Tagging und Image-Registry

Für sauberen Rollback brauchst du klare Versionierung. Jede Version muss eindeutig identifizierbar und abrufbar sein:

Image-Registry: alle Versionen abrufbar

Tag / Version

Beschreibung

Status

v2.4.0

Aktuelle Production-Version

LIVE

v2.3.5

Vorherige Version (Hotfix von v2.3.4)

v2.3.4

Stable Release vom 12.04

stable

v2.3.3

Release vom 28.03

archived

v2.3.2

Release vom 14.03

archived

Mit klarem Versions-Tagging ist der Rollback trivial: kubectl set image deployment/app app=registry/app:v2.3.5 – fertig. Wichtig: Image-Registry alle alten Versionen aufbewahren. Nicht aggressiv aufräumen. Speicherplatz ist billig im Vergleich zu „Rollback nicht möglich weil Image weg".

Best Practice: Semantic Versioning (semver) – `MAJOR.MINOR.PATCH`. Beispiel: `v2.4.0` → `v2.4.1` (Bugfix), `v2.5.0` (Feature), `v3.0.0` (Breaking Change). Plus Git-Commit-SHA als alternativer Tag für genaue Nachverfolgbarkeit (app:abc123def).

8) Rollback in der Praxis: ein typisches Szenario

Schauen wir uns konkret an, wie ein Rollback im Alltag abläuft. Mittwoch nachmittag, neue Version v2.4.0 wurde vor 10 Minuten deployed:

Rollback-Timeline: Mittwoch 14:00 - 14:25