Wikonia:Work-Tools (Projekt)/Evaluierung Monitoring/Logging

1. Zielsetzung Bearbeiten

  • Unkomplizierte, wartungsarme Überwachung der Kernsysteme (Status, Fehler, Ausfälle)
  • Transparenz: Öffentlich zugängliche Statusseite, die Auskunft über Systemzustand, laufende Prozesse und bekannte Störungen gibt
  • Möglichkeit zur Verknüpfung mit Request-System (Phorge) für aktuelle Störungsmeldungen/Issues
  • Option auf internes Logbuch mit detaillierten Einträgen (zugangsbeschränkt), ggf. auch für Eigenentwicklungen/Bots

2. Evaluierte Optionen Bearbeiten

A) Grafana/Prometheus (Kombilösung)

  • Vorteile:
    • Sehr mächtige Monitoring-/Visualisierungskette
    • Open Source, flexibel, große Community
    • Beliebig erweiterbar (Metriken, Alarme, Logs, Dashboards)
  • Nachteile:
    • Komplexe Einrichtung und Wartung
    • Viele Einzelkomponenten, die aufeinander abgestimmt werden müssen
    • Für aktuelle Anforderungen deutlich überdimensioniert
  • Transparenz: Kann Dashboards veröffentlichen, aber recht technisch und aufwendig in der Bedienung für Außenstehende
  • Ergebnis:
    • Als zu aufwändig und überdimensioniert verworfen


B) Netdata

  • Vorteile:
    • Einfache Installation, ansprechende Web-Oberfläche
    • Echtzeit-Monitoring, viele Metriken ohne Zusatzaufwand
    • Open Source, Docker-fähig
    • Wenig Pflegeaufwand, gute Defaults
  • Nachteile:
    • Sehr „live“-orientiert, kaum Langzeithistorie out-of-the-box
    • Keine komplexen Alarmierungs-/Reportingfunktionen
    • Fokus auf Statusvisualisierung, weniger echte Log-Auswertung
  • Transparenz: Bietet eine schnelle Statusübersicht, könnte (theoretisch) als öffentliche Statusseite genutzt werden, ist aber technisch gefärbt
  • Ergebnis:
    • Im Rennen als pragmatische Monitoring-Lösung, ggf. noch in der Testphase


C) Manuelles Monitoring (Eigenbau/Automatisierung)

  • Vorteile:
    • Status- und Logbuchfunktion kann exakt an eigene Anforderungen angepasst werden
    • Direkte Verknüpfung mit Phorge (z. B. automatisiertes Anlegen von Störungstickets) möglich
  • Nachteile:
    • Entwicklungs- und Wartungsaufwand initial hoch
    • Eigenverantwortung für Security, Zugangsmanagement etc.
    • „Single Point of Failure“ bei Inhouse-Lösung
  • Transparenz: Statusseite nach eigenen Vorstellungen realisierbar
  • Ergebnis:
    • Perspektivisch als eigene Entwicklung denkbar, noch nicht entschieden


D) Nagios (klassische Enterprise-Lösung)

  • Vorteile:
    • Etabliert, für große Umgebungen geeignet
    • Viele Plugins, mächtige Alarmierungsfunktionen
  • Nachteile:
    • Komplexe Einrichtung, viel Overhead
    • Für kleine Projekte völlig überdimensioniert
    • Pflege- und Administrationsaufwand steht in keinem Verhältnis zum Nutzen
  • Ergebnis:
    • Wegen Overkill und Aufwand ausgeschlossen


E) SaaS-Lösungen (StatusCake, UptimeRobot etc.)

  • Vorteile:
    • Kein Eigenbetrieb nötig, schnelle Einrichtung
    • Alarmierung/Benachrichtigung meist inklusive
  • Nachteile:
    • Daten außerhalb der eigenen Infrastruktur
    • Nur Basismonitoring (Ping, HTTP), keine echte Logauswertung
    • Kosten für sinnvolle Features, eingeschränkte Kontrolle
  • Transparenz: Bieten Out-of-the-Box-Statusseiten, aber stark eingeschränkt und wenig individuell anpassbar, Integration in eigene Abläufe schwierig
  • Ergebnis:
    • Kurz erwogen, aus Datenschutz- und Integrationsgründen abgelehnt

3. Entscheidung und Begründung Bearbeiten

Komplexe und Enterprise-orientierte Monitoring-Lösungen (Nagios, Grafana/Prometheus) wurden aufgrund des hohen Pflegeaufwands und mangelnder Verhältnismäßigkeit ausgeschlossen.

Für manuelle Eigenlösungen fehlt die Zeit und Notwendigkeit einer dauerhaften Pflege.

Netdata ist aktuell technisch der favorisierte Kandidat, da es mit wenig Aufwand eine brauchbare Übersicht über den Systemzustand liefert und bei Bedarf problemlos erweiterbar ist.

SaaS-Dienste wurden abgelehnt, um Kontrolle und Datenschutz zu wahren.

Eine konkrete Entscheidung (infolgedessen auch Umsetzung) ist gegenwärtig jedoch noch nicht absehbar.