- 1 Section
- 10 Lessons
- unbegrenzt
- ITIL & Service Management10
- 1.1Was ist ITIL? Geschichte, Versionen und Zweck
- 1.2ITIL 4: Das Service Value System (SVS)
- 1.3Service Value Chain
- 1.4ITIL-Grundprinzipien
- 1.5Service Level Management und SLA
- 1.6CMDB – Configuration Management Database
- 1.7Service Desk: Aufgaben, Typen und Werkzeuge
- 1.8Continual Improvement
- 1.9Ticketsysteme in der Praxis: JIRA, Freshservice, OTRS
- 1.10Aufgaben ITIL
Problem Management: Root Cause Analysis
Während Incident Management den Service so schnell wie möglich wiederherstellt, geht es bei Problem Management darum, die Ursache herauszufinden – damit der gleiche Vorfall nicht wiederkommt. „Workaround" reicht nicht; gefragt ist die Root Cause. Ein Beispiel: dreimal in zwei Wochen sind die Druckdienste hängengeblieben, jedes Mal hat das 1st Level den Spooler-Dienst neugestartet (Workaround). Incident Management ist zufrieden – schnell behoben. Problem Management dagegen fragt: warum bleibt der Spooler stecken? Antwort am Ende: ein bestimmter PCL-Druckjob aus der Buchhaltung verursacht den Hänger. Lösung: Druckertreiber tauschen, Problem ist weg. Diese Lektion zeigt dir den Problem-Management-Prozess, die zwei wichtigen Methoden 5-Whys und Ishikawa-Diagramm und wie Problem Management mit Incident Management, KEDB und Change Management zusammenarbeitet.
1) Incident vs. Problem – zwei Konzepte, ein Vorfall
🚨 Incident
Was? Konkrete Service-Unterbrechung (siehe Incident Management)
Ziel: Service wiederherstellen (Workaround reicht)
Zeitrahmen: Minuten bis Stunden (SLA-getrieben)
Beispiel-Ticket: „Drucker druckt nicht – behoben durch Spooler-Restart"
🔍 Problem
Was? Die zugrundeliegende Ursache eines oder mehrerer Incidents
Ziel: Ursache finden und beheben (Repeating verhindern)
Zeitrahmen: Tage bis Wochen (gründliche Analyse)
Beispiel-Ticket: „Spooler hängt sporadisch – Ursache: defekter PCL-Treiber → Treiber-Update"
Wichtig: Incidents werden geschlossen, sobald der Workaround läuft. Probleme bleiben offen, bis die Ursache beseitigt ist. Beide Tickets können parallel im System sein.
2) Reaktives und proaktives Problem Management
Es gibt zwei Modi, in denen Probleme entstehen:
- Reaktives Problem Management: ausgelöst durch konkrete Incidents. Trigger: ein Major Incident, oder eine Häufung gleichartiger Vorfälle, oder ein wiederholter Workaround.
- Proaktives Problem Management: Analyse von Trends, ohne konkreten Auslöser. „Wir sehen seit Wochen, dass die Login-Antwortzeiten steigen – was steckt dahinter?" Bevor es zum Major Incident wird. Eng verzahnt mit Kapazitätsplanung und Monitoring.
3) Der Problem-Management-Prozess
Identify
Trigger aus Incidents, Trends oder Audits
Log & Categorize
Problem-Ticket öffnen, klassifizieren
Investigate
Daten sammeln, Hypothesen prüfen
RCA
Root Cause feststellen
Workaround & KEDB
Sofort dokumentieren
Solution
RFC für nachhaltige Lösung
Close & Review
Erfolg prüfen, Lessons Learned
Schritt 5 ist entscheidend – ein erkanntes Problem ohne Workaround-Dokumentation hilft niemandem. Sobald die Ursache klar ist, muss ein Workaround in der KEDB stehen, damit folgende Vorfälle schneller behoben werden. Schritt 6 (Solution) führt typisch zu einem Change Request (RFC) – Problem Management findet die Ursache, Change Management umsetzt die Lösung.
4) RCA-Methode #1 – Die 5-Whys
Die einfachste und überraschend wirkungsvolle Methode aus dem Toyota Production System: frage fünfmal warum, bis du nicht mehr ein Symptom, sondern die wirkliche Ursache erreicht hast. Klick „nächste Frage", um eine reale Kette durchzugehen:
5) RCA-Methode #2 – Das Ishikawa-Diagramm
Auch Fischgrät-Diagramm genannt, weil seine Struktur aussieht wie ein Fischskelett. Ursprünglich aus dem Qualitätsmanagement (Kaoru Ishikawa, 1960er). Du nennst das Problem an der Spitze und sammelst alle möglichen Ursachen in sechs Kategorien (klassische „6M"). Klick die Kategorien an, um zu sehen, was für IT-Probleme jeweils typisch ist:
6) Known Errors – das Zwischenergebnis
Ein Known Error ist ein Problem, dessen Ursache bekannt ist, aber für das es noch keine endgültige Lösung gibt – nur einen Workaround. Diese Kombination wird in der KEDB verewigt. Dadurch:
- 1st Level kann bei wiederkehrenden Symptomen den Workaround in Sekunden anwenden.
- Die Ticket-Bearbeitungszeit für gleichartige Vorfälle sinkt drastisch.
- Das Wissen geht nicht verloren, wenn der ursprüngliche Bearbeiter weg ist.
Beispiel: ein Bug im DB-Connection-Pool, der erst bei einer bestimmten Konfiguration auftritt. Ursache klar, Hersteller-Patch in Arbeit – bis dahin „Restart des Pools" als Workaround. Das ist ein klassischer Known Error.
7) Weitere RCA-Methoden
| Methode | Wann |
|---|---|
| Kepner-Tregoe | Strukturierte Methode mit Vergleichs-Tabellen (Ist/Ist-nicht). Sehr genau, aber zeitaufwendig. |
| Pareto-Analyse | 80/20-Regel: welche 20 % der Ursachen verursachen 80 % der Vorfälle? Gut zur Priorisierung. |
| Fault Tree Analysis (FTA) | Logik-Baum aus AND/OR-Verknüpfungen. Stark im Sicherheitsbereich. |
| Brainstorming | Klassisch, oft Vorstufe zu strukturierterem Vorgehen. |
| Post-Mortem-Workshop | Nach Major Incidents zwingend. Alle Beteiligten an einem Tisch. |
8) Antipatterns
- Workaround als Lösung. Spooler-Restart wird zur „Lösung" deklariert, das Problem-Ticket geschlossen. Sechs Wochen später kommt der gleiche Vorfall wieder.
- Schuldzuweisung statt Ursachenanalyse. „Wer hat das verbockt?" verhindert ehrliche RCA. Lösung: Blameless Post-Mortems.
- Bei Why #2 stehenbleiben. Die ersten zwei Whys liefern Symptome, nicht Ursachen. Hartnäckig weiterfragen.
- RCA ohne Datenbasis. Vermutungen statt Logs. Lösung: Logs, Monitoring-Historie, CMDB konsultieren.
- Findings in der Schublade. RCA-Ergebnisse stehen in einem Word-Dokument, das niemand findet. Lösung: RFC + KEDB-Eintrag obligatorisch.
- Politische Ursachen ausklammern. Die echte Ursache ist „wir haben kein Patch-Management" – aber das anzusprechen kostet niemanden seine Komfortzone. Lösung: Mut zur unbequemen Wahrheit.
Zusammenfassung
Problem Management sucht und beseitigt die Ursache wiederkehrender oder schwerwiegender Vorfälle – im Gegensatz zum Wiederherstellungsfokus des Incident Management. Reaktiv (durch konkrete Incidents ausgelöst) oder proaktiv (durch Trends, ohne aktuellen Anlass). Prozess: Identify → Log → Investigate → RCA → Workaround/KEDB → Solution (RFC) → Close/Review. Wichtigste Methoden: 5-Whys (einfache iterative Frage-Kette bis zur eigentlichen Ursache) und Ishikawa-Diagramm (Fischgrät mit den 6M-Kategorien Mensch/Maschine/Material/Methode/Messung/Umgebung). Weitere Methoden: Kepner-Tregoe, Pareto, FTA. Ergebnis: ein Known Error (Ursache bekannt, Workaround dokumentiert) in der KEDB + ein RFC für die nachhaltige Lösung über Change Management. Antipatterns: Workaround als Endlösung, Schuldzuweisung, frühes Stoppen der 5-Whys, RCA ohne Daten, Findings ohne Umsetzung.
Verwandte Lektionen: KEDB · Incident Management · Change Management · und mehrWeitere relevante LektionenSystematische FehlersucheLog-AnalyseKapazitätsplanungKnowledge BasePDCA-ZyklusPatch-ManagementCMDB
