Zabbix

Zabbix ist eine Open-Source-Monitoring-Plattform, die seit 2001 aus Lettland kommt und das ganze Spektrum in einem Paket abdeckt: Datenerhebung, Speicherung, Auswertung, Alarmierung, Dashboards. Während Nagios/Icinga sich auf Statusprüfung konzentrieren und externe Tools für Graphen brauchen, bringt Zabbix alles selbst mit – inklusive einer eigenen Datenbank für Zeitreihen und einer leistungsstarken Web-UI. Das macht Zabbix besonders im Mittelstand und bei mittelgroßen Service-Providern beliebt: ein Tool, eine Oberfläche, eine Datenbank. Konzeptionell sind drei Begriffe entscheidend, die du für die Prüfung können musst: Items (Datenpunkte), Triggers (Logikregeln) und Templates (wiederverwendbare Bündel). Außerdem: das Server-Agent-Proxy-Modell und das eingebaute Severity-System mit sechs Stufen.

1) Items, Triggers, Templates – die Zabbix-Hierarchie

Der gedankliche Aufbau von oben nach unten: ein Host (Server, Switch) gehört zu einem oder mehreren Templates, die ihm Items (was gemessen wird) und Triggers (wann es problematisch wird) zuweisen. Klick die Ebenen an, um zu sehen, was sie konkret enthalten:

Zabbix-Datenmodell von oben nach unten

📁Host Group„Linux Servers"

↓

🖥️Hostsrv-web01

↓

📋TemplateLinux by Zabbix Agent

↓

📊Itemvm.memory.used

↓

⚡Triggeravg(5m) > 90 %

↓

📨ActionE-Mail an On-Call

Templates sind der zentrale Hebel von Zabbix: einmal sauber definiert, decken sie ganze Geräteklassen ab. „Zabbix Out-of-the-Box" liefert hunderte Templates für gängige Hardware und Software – von Cisco-Switches über Windows Server bis hin zu MySQL und Apache. Das spart bei einem 60-Server-Rollout Tage Arbeit.

2) Trigger-Expressions – die Zabbix-Logiksprache

Trigger sind Boolean-Ausdrücke über Items. Zabbix wertet sie permanent aus und entscheidet anhand des Ergebnisses, ob ein Problem vorliegt. Die Sprache ist relativ ausdrucksstark – du kannst Durchschnitte über Zeiträume berechnen, mehrere Items kombinieren, Trends prüfen. Hier ein klassisches Beispiel mit RAM-Auslastung:

Trigger-Expression live ausprobieren

avg(/srv-web01/vm.memory.util,5m) > 90

Stell die simulierte RAM-Auslastung ein und beobachte, ob der Trigger feuert:

RAM-Avg(5m): 65 %

OKTrigger-Wert: FALSE → kein Problem gemeldet

Das Tolle an Zabbix-Triggern: sie operieren auf historischen Daten. avg(...,5m) sagt: „Durchschnitt der letzten 5 Minuten". Andere nützliche Funktionen: max(...,1h), last(), nodata(...,30m) (warnt, wenn 30 Min. lang keine Daten kamen – Agent down), change() (Wertänderung), trendavg(...,1d:now/d) (gestern). Damit kannst du Alarme bauen, die nicht bei kurzen Ausreißern nervös werden.

3) Sechs Severity-Stufen

Zabbix hat ein eigenes Severity-Modell – feiner als Nagios' OK/WARN/CRIT, aber gröber als ein offenes Prometheus-Metrik-System. Jeder Trigger bekommt eine fixe Severity zugewiesen:

Not Classifiedunbekannt

Informationnur FYI

Warningbeobachten

Averagehandeln

Higheskalieren

DisasterKrisenfall

Severities sind wichtig für zwei Dinge: Filter im Dashboard („zeig nur ab Average") und Eskalations-Aktionen („bei Disaster sofort SMS"). Auch Acknowledgements (= „ich kümmere mich") laufen über Severity-Filter. Mehr zur Eskalation in Schwellenwerte & Alerting.

4) Server, Agent, Proxy – die Architektur

Zabbix ist klassisch dreischichtig:

Zabbix Server – die zentrale Komponente. Sammelt Daten, wertet Trigger aus, schickt Alarme, schreibt in die History-DB (MySQL, PostgreSQL, TimescaleDB).
Zabbix Agent – installiert auf jedem überwachten System. Sammelt Metriken (CPU, RAM, Disk, Prozesse, Logs) und schickt sie an den Server. Active-Modus pusht, passive wartet auf Anfragen.
Zabbix Proxy – optionaler Mittler, sinnvoll für: (a) entfernte Standorte (Filialen), (b) DMZ-Trennung, (c) Skalierung über hunderte/tausende Hosts. Sammelt lokal, sendet gebündelt an den Server.

Es gibt zusätzlich agentlose Methoden: SNMP, IPMI, JMX (Java-Anwendungen), HTTP-Checks, einfache TCP-Erreichbarkeit, und externe Skripte (genau wie Nagios-Plugins). Damit deckt ein Zabbix-Setup typisch alles ab – vom Router ohne Agent bis zur Anwendung mit eingebautem JMX-Endpoint.

5) Discovery – Hosts automatisch finden

Ein Feature, das Zabbix von Haus aus stark macht: Auto-Discovery. Du gibst dem Server einen IP-Bereich (10.0.0.0/24) und Discovery-Regeln, und Zabbix scannt regelmäßig nach Geräten, fragt sie kurz per SNMP, Ping, Agent oder TCP-Port ab und legt automatisch passende Hosts mit den zugewiesenen Templates an. Bei neuen Servern aus dem Ansible-Provisioning oder beim Hochfahren neuer VMs in IaaS-Umgebungen tauchen die im Monitoring von selbst auf. Daneben gibt es Low-Level-Discovery (LLD): innerhalb eines Hosts findet Zabbix selbst alle Mountpoints, Netzwerk-Interfaces, MySQL-Datenbanken etc. und legt für jeden Fund eigene Items an. Spart Pflegeaufwand massiv.

6) Was Zabbix besonders macht

Stärke	Bedeutung im Alltag
All-in-One	Datenerhebung, Speicherung, Grafiken, Alarme – ein Tool, eine UI, eine DB. Kein Stack aus 5 Komponenten.
Vorgefertigte Templates	Hunderte ab Werk. Vom Cisco-IOS-Switch über Windows AD bis Kubernetes – sofort einsatzbereit.
Mächtige Trigger-Sprache	Zeitreihen-Funktionen, Trends, Forecasts. Nicht nur „aktueller Wert".
Auto-Discovery + LLD	Skaliert organisch, ohne manuelle Pflege jedes Hosts.
Komplette REST-API	Voll automatisierbar, gut geeignet für IaC-Integration.

7) Nagios vs. Zabbix vs. Prometheus – wann was?

	Nagios/Icinga	Zabbix	Prometheus
Architektur	Plugin-zentrisch, Status-orientiert	All-in-One, eigene DB	Pull-basiert, Zeitreihen-zentrisch
Konfiguration	Datei-basiert	Web-UI + API + Templates	YAML + Service Discovery
Stärke	Mature Plugin-Ökosystem	Komplettpaket, schnell produktiv	Cloud-native, Containers
Schwäche	Wenig Out-of-the-Box-UI	DB wird bei Skalierung Engpass	Kein integriertes Long-Term-Storage
Sweetspot	Klassische IT-Infrastruktur	Mittelstand, Service-Provider	Container, Microservices, Cloud

Zusammenfassung

Zabbix ist eine Open-Source-All-in-One-Monitoring-Plattform: Server, Agent, Proxy, Web-UI und Datenbank in einem Stack. Datenmodell von oben nach unten: Host Group → Host → Template → Item (was gemessen) → Trigger (wann problematisch) → Action (was passiert). Trigger sind Boolean-Ausdrücke über Zeitreihen-Funktionen wie avg(), last(), nodata(). Sechs Severity-Stufen von Not classified bis Disaster. Datenerhebung über Agent (active/passive), SNMP, IPMI, JMX, HTTP, externe Skripte. Auto-Discovery findet Hosts automatisch, LLD erkennt Sub-Strukturen wie Mountpoints automatisch. Sweetspot: mittlere bis große, klassische IT-Infrastrukturen mit gemischtem Geräte-Park. Für Container-/Cloud-Welt eher Prometheus.

Verwandte Lektionen: Nagios & Icinga · Grafana & Prometheus · Schwellenwerte & Alerting · und mehrWeitere relevante LektionenSNMP Monitoring-Konzept Kapazitätsplanung Ansible-Playbooks Incident Management Service Level Management Server-Dokumentation