Observability

Metriken, Logs, Alerts, der Stack, mit dem wir wissen, dass etwas schief läuft, bevor es Ihre Kunden tun. Setup, Betrieb und Tuning aus produktiver Erfahrung mit Multi-Tenant-Setups.

Prometheus

Time-Series-Datenbank, Alerting-Rules, Federation für Multi-DC-Setups. Retention-Tuning auf SSD-Storage, Recording-Rules für teure Aggregationen.

Grafana

Custom-Dashboards pro Mandat, Alert-Workflows mit OpsGenie-Integration, Multi-Tenant-Sichten via Folder-Scoping. Provisioning via IaC.

Loki + Promtail

Log-Aggregation in K3s und VM-Stacks, Retention-Policies pro Compliance-Anforderung, Label-Cardinality-Tuning für skalierbare Storage-Kosten.

Zabbix

Klassisches Monitoring für Long-Runs und Legacy-Stacks. Auto-Discovery via SNMP, Template-Inheritance, History-Storage auf PostgreSQL.

Checkmk

Applikations-Monitoring mit Auto-Discovery für hybride VM/K8s-Stacks. Custom-Plugins in Python, Notifications mit Eskalations-Pfad.

OpenTelemetry

Vendor-neutrale Tracing-Pipeline, Instrumentierung in Node/Python/Go-Apps, Collector als Sidecar oder DaemonSet.

Sentry

Error-Tracking für Web- und API-Stacks, Source-Map-Upload, Release-Tagging und Per-User-Issue-Aggregation.

Uptime Kuma

Lightweight Statuspages für KMU-Mandate mit Alert-Eskalation.

Netdata

Per-Host High-Resolution-Metrics mit ML-Anomaly-Detection.

SNMP-Monitoring

Netzwerk-Geräte (Cisco/Fortinet/Aruba) über Zabbix/Checkmk eingebunden.