Kapitel 5
5 Überwachung der Rechnerverfügbarkeit
5.1 Aufgabendefinition
Der wichtigste Part bei der Inbetriebnahme von Tivoli war die Implementierung der Überwachungsfunktionen.
Nachdem diese auf Ping-Ebene implementiert war, kam der Wunsch, diese Überwachung dazu zu nutzen, eine Verfügbarkeitsstatistik zu erstellen. Außerdem sollte der zentralen Tivoli-Prozess (der oserv-Daemon) ggf. neu gestartet werden, falls er nicht mehr läuft. Falls ein Neustart nicht möglich ist, so sollte dies gleichwertig mit einem kompletten Ausfall des Rechners gemeldet werden.
Die Überwachung sollte jederzeit einfach ausgesetzt werden können, auch wenn kein Zugang zum Tivoli-Desktop besteht. Hierzu sollte eine Intranet-Seite und ein weiteres Skript erstellt werden.
Die erhaltenen Daten sollten im Intranet grafisch und statistisch aufbereitet abrufbar sein.
5.2 Implementierung
5.2.1 Überwachung
Die gesamte Überwachung sollte auf dem zentralen Tivoli Server ablaufen. Ein Ausfall dieses Rechners würde ohnehin sehr schnell auffallen, so daß dieser Rechner als alleinige zentrale Stelle für die Überwachung geeignet ist. Auf eine Überwachung des überwachenden Rechners konnte also verzichtet werden.
Da alle Ping-Überwachungen von zentraler Stelle aus erfolgen, kann zum Deaktivieren der Überwachung einfach eine Datei angelegt werden, deren Existenz am Beginn des Skripts geprüft wird. Existiert diese Datei, so gilt die Überwachung als deaktiviert.
Dieses Vorgehen hat den Vorteil, daß es sehr einfach ist, die Überwachung auch via Telnet (z.B. über ein Shell-Skript) zu deaktivieren, z.B. wenn weder der Tivoli Desktop noch ein Zugang zum Intranet zur Verfügung steht.
Abbildung 4: Ablaufplan - Pingüberwachung
Lock-Datei vorhanden? |
Nein | Ja |
ping liefert ... | Liefere: PING AUS |
OK | Fehler |
wping liefert | Liefere: PING ERROR |
OK | kein MN | Fehler |
Liefere: PING OK | Liefere: PING OK | Liefere: PING ERROR |
Ob der Rechner grundsätzlich erreichbar ist, sollte weiter mit der Ping-Überwachung geprüft werden. Hierzu wird das ping-Kommando aufgerufen. Damit den Verlust einzelner Pakete nicht zu Fehlmeldungen führt werden 5 Pings abgesetzt. Dabei gilt auch nur der Verlust aller Pakete als Zeichen für die Nichterreichbarkeit des jeweiligen Rechners.
Falls der Ping ergibt, daß die Maschine erreichbar ist, so wird der nächste Schritt eingeleitet, die Überwachung des oserv-Daemon. Der oserv-Daemon ist, wie bereits gesagt, der zentrale Tivoli-Prozess, der auf jedem Rechner läuft, auf dem Überwachungen ausgeführt werden. Ob dieser Prozess läuft kann man mit dem Tivoli-Kommando wping erfahren. Dieses Kommando liefert auch eine prüfbare Fehlermeldung, wenn der Rechner, den man prüfen wollte, kein Managed-Node ist, das heißt, wenn er nicht für die Überwachung in Tivoli installiert ist. Diese Rückgabe wird ausgenutzt, um das selbe Skript zur reinen Ping-Überwachung anderer Rechner nutzen zu können. Falls der oserv-Daemon nicht läuft wird er gestartet und anschließend, nach einer angemessenen Pause, erneut geprüft. Erst wenn diese zweite Überwachung fehlschlägt wird eine entsprechende Meldung zurückgeliefert.
5.2.2 Verfügbarkeitsstatistiken
Um die Verfügbarkeit der überwachten Rechner feststellen zu können, wird bei jedem Durchlauf des Überwachungsskripts (normalerweise alle 10 bzw. 5 Minuten) das Ergebnis der Überwachung an eine Log-Datei angehängt. Diese kann durch ihr einfaches Format (Datum + 1 Zeichen für das Ergebnis) durch andere Skripte analysiert und ausgewertet werden.
Hierfür wurde ein zentrales Auswertungsskript erstellt, das die Zahl der Durchläufe des Überwachungsskripts bei denen der Rechner erreichbar oder nicht erreichbar war sowie die Zahl der Durchläufe, bei denen die Überwachung deaktiviert war, nach Tagen oder nach Monaten zurückliefert. Dieses Skript wird wiederum von den Skripten aufgerufen, die die Statistik aufbereitet im Intranet zur Verfügung stellen.
Abbildung 5: Grafische Auswertung der Rechnerverfügbarkeit
|
Anmerkung zur Grafik:
Der angezeigte Rechner wurde vom 14. auf den 15. November für Wartungsarbeiten heruntergefahren.
In den 3,5 Monaten, in denen die Überwachung jetzt läuft, ergeben sich grob folgende Verfügbarkeiten:
NT-Rechner (produktiv) | >97% |
NT-Rechner (Office) | nicht überw. |
Unix-Rechner (produktiv) | >99% |
Unix-Rechner (nicht prod.) | >99% |
|
|