Schwellenwerte, Alerting und Eskalation

Monitoring sammelt Daten – Alerting macht sie nutzbar. Eine Disk-Füllstand-Metrik alleine bewirkt nichts; sie wird erst zum Werkzeug, wenn sie bei 90 % jemanden alarmiert, der dann auch reagiert. Dahinter steckt mehr Tücke als es klingt: zu niedrige Schwellen erzeugen ständige Fehlalarme („alert fatigue") – die echten Probleme gehen im Rauschen unter. Zu hohe Schwellen merken nichts, bis es zu spät ist. Schlecht eingerichtete Eskalation sorgt dafür, dass nachts der falsche Mensch geweckt wird. In dieser Lektion klärst du, wie man Schwellen sinnvoll setzt, was Hysterese gegen Flapping tut, wie Eskalations-Ketten aufgebaut sind und welche Anti-Patterns Teams in die Resignation treiben.

1) Schwellenwerte – statisch vs. dynamisch

Die einfachste Form: ein fester Wert, jenseits dessen Alarm geschlagen wird. „Disk > 90 % → Critical". Funktioniert für viele Fälle. Klick und ziehe den Wert, um zu sehen, wie ein zweischwelliger Alarm reagiert:

Schwellenwert-Alarm – live

OK-Zone WARN CRIT

Disk-Belegung: 35 %

Statische Schwellen sind robust, aber blind für Kontext. Eine Datenbank kann nachts mit 95 % RAM normal laufen (Cache!) und tagsüber bei 80 % überlastet sein. Statische Schwellen feuern in beiden Fällen gleich. Dynamische Schwellen lernen Baselines – „Wert ist 3σ über dem üblichen Wochentag-Stundenwert" – und reduzieren Fehlalarme. Tools mit ML-Baselines: Zabbix Anomaly Detection, Dynatrace, Datadog Outliers.

2) Trends statt Punktwerte – „Disk wird in 7 Tagen voll"

Ein Punktwert sagt dir den Zustand jetzt. Spannender ist oft der Trend – wohin entwickelt es sich? Predict_linear in Prometheus, forecast() in Zabbix: extrapoliert lineare Steigung in die Zukunft. Ein klassischer Anwendungsfall:

# PromQL: warnt, wenn aktueller Trend auf "voll in 4 Tagen" hinweist
predict_linear(node_filesystem_avail_bytes[6h], 4*24*3600) < 0

Vorteil: du wirst gewarnt, bevor der Wert überhaupt einen kritischen Punkt erreicht. Mehr zur systematischen Trend-Auswertung in Kapazitätsplanung.

3) Hysterese gegen Flapping

„Flapping" beschreibt einen Service, der wiederholt zwischen OK und Problem hin- und herwechselt – etwa wenn die CPU-Last bei 80 % schwingt und die Warning-Schwelle bei 80 % liegt. Folge: alle paar Sekunden ein „alarmierender" Statuswechsel, Mailbox läuft voll, niemand reagiert mehr. Hysterese ist die Lösung: zwei verschiedene Schwellen für „Alarm an" und „Alarm aus":

Hysterese – Schwelle „Alarm an" vs. „Alarm aus"

Ohne Hysterese: jedes Überschreiten von 80 % feuert. Mit Hysterese: Alarm geht erst über 90 % an, geht erst unter 80 % wieder aus. Zwischen den Schwellen ist „aktiver Alarm-Zustand", aber keine neuen Benachrichtigungen. Effekt: stabile Meldungslage, kein Flapping. Alternative Mechanismen: min_duration („erst alarmieren, wenn Zustand mind. 5 Min. anliegt"), Soft- vs. Hard-States bei Nagios.

4) Eskalation – wer wird wann geweckt?

Ein Alarm braucht einen Empfänger. Bei kritischen Systemen reicht aber „eine E-Mail an die IT-Abteilung" nicht – wenn niemand antwortet, muss es weitergehen. Das ist die Eskalationskette. Klick „Alarm starten", um eine typische Kette in Aktion zu sehen:

Eskalations-Kette – Beispiel „Production-DB down"

00:00

Trigger feuert – SlackE-Mail an den L1-Support-Channel

↓

+05 Min

Keine Bestätigung – SMS an die L2-Bereitschaft

↓

+15 Min

Immer noch unbestätigt – Anruf an den Datenbank-Spezialisten

↓

+30 Min

Eskalation an IT-Leitung + automatischer Vorbereitungs-Run für Failover

↓

+60 Min

Major-Incident-Process startet, Geschäftsführung wird informiert

Eskalation greift, wenn niemand acknowledged – also den Alarm aktiv bestätigt. „Ich kümmere mich" stoppt die Kette, „Ich habe es gelöst" schließt den Incident. On-Call-Rotation regelt, wer in welcher Schicht in welcher Reihenfolge dran ist. Tools: PagerDuty, OpsGenie, Splunk On-Call. Mehr zum strukturierten Reaktions-Prozess in Incident Management und Level Support.

5) Alert-Fatigue – das größte Anti-Pattern

Wenn ein Team täglich 200 Alarme bekommt, von denen 190 nicht handlungsrelevant sind, dann werden auch die 10 echten ignoriert. Das ist Alert-Fatigue, eines der häufigsten und gefährlichsten Probleme in der Praxis. Ein gutes Alarm-System hat wenige Alarme – aber jeder ist relevant:

❌ Schlecht: rauschende Alarme

Jede „Warning" geht direkt auf den Pager
Jeder Server hat 30 aktive Trigger
Kein Unterschied zwischen 12:00 Uhr und 03:00 Uhr
Keine Acknowledgements – alles wird wiederholt verschickt
„Disk WARN" über Wochen offen, niemand handelt

✓ Gut: handlungsrelevante Alarme

Pager nur bei Hard-CRITICAL mit Business-Impact
Warnings landen im Dashboard, nicht auf dem Telefon
Geschäftszeiten-Routing über SLAs
Jeder Alarm hat ein Runbook (Link zur Vorgehensweise)
Regel: lieber neuen Alarm löschen als unbearbeitet liegen lassen

6) Acknowledgements, Silencing, Maintenance Windows

Drei Werkzeuge, die jedes ernstzunehmende Monitoring-System bietet:

Acknowledgement (Ack). Jemand hat den Alarm gesehen und übernimmt. Stoppt die Eskalation. Wichtig: das ist nicht dasselbe wie „behoben". Der Alarm bleibt aktiv im Dashboard, sendet aber keine neuen Notifications mehr.
Silencing. Bestimmte Alarme für einen Zeitraum bewusst ausschalten – etwa weil bekannt ist, dass ein System gerade umzieht oder ein Drittprodukt fehlerhaft alarmiert. Sparsam einsetzen! Silenced-Alarme sind eine häufige Ursache übersehener Probleme.
Maintenance Window. Geplante Wartung – Alarme während des Zeitraums werden unterdrückt oder zumindest entsprechend markiert. Verbindet sich mit Change Management: jeder Change sollte ein passendes Maintenance Window auslösen.

7) Auf welchen Kanal alarmieren?

Kanal	Geeignet für	Stolperfallen
E-Mail	Information, Warnings, Audit	Schlecht für „sofort": kein zuverlässiger Sichtkontakt, Spamfilter, IMAP-Verzögerungen
Slack / Teams	Team-Bereitschaft im Arbeitsalltag	Nachts: viele Smartphones haben Mute-Modi, Benachrichtigung kommt zu spät
SMS	On-Call-Bereitschaft, kritische Alarme	SMS-Versand kann verzögert sein (Provider-abhängig); langlebige Texte verfehlen Limits
Push-Apps (PagerDuty)	24/7-Bereitschaft mit Akustik-Alarm	Kostenintensiv; braucht Telefon mit aktiviertem Override-Modus
Telefonanruf	Eskalation bei höchster Stufe	Robotanrufe sind manchmal weniger glaubwürdig als ein menschlicher Anruf

Zusammenfassung

Schwellenwert-Alarm wird brauchbar erst, wenn drei Dinge stimmen: gut gewählte Schwellen (statisch oder dynamisch/baseline-basiert), Trend-statt-Punkt-Logik (mit predict_linear/forecast), Hysterese oder min_duration gegen Flapping. Eskalations-Ketten regeln, wer wann benachrichtigt wird – mit Acknowledgements als Stopp-Signal. Größte Falle: Alert-Fatigue – durch radikales Aufräumen vermeiden (weniger ist mehr). Silencing und Maintenance Windows für geplante Ausnahmen. Benachrichtigungskanäle nach Eskalationsstufe staffeln – E-Mail/Chat fürs Erste, SMS/Pager/Anruf für die Stufen danach. Eng verzahnt mit Incident Management und Service Level Management.

Verwandte Lektionen: Incident Management · Level Support · Service Level Management · und mehrWeitere relevante LektionenKapazitätsplanung Monitoring-Konzept Ticket-Priorisierung Change Management Problem Management Failover Nagios & Icinga