Zum Hauptinhalt springen

Observability

Metriken, Logs, Alerts, der Stack, mit dem wir wissen, dass etwas schief läuft, bevor es Ihre Kunden tun. Setup, Betrieb und Tuning aus produktiver Erfahrung mit Multi-Tenant-Setups.

Prometheus

Time-Series-Datenbank, Alerting-Rules, Federation für Multi-DC-Setups. Retention-Tuning auf SSD-Storage, Recording-Rules für teure Aggregationen.

Grafana

Custom-Dashboards pro Mandat, Alert-Workflows mit OpsGenie-Integration, Multi-Tenant-Sichten via Folder-Scoping. Provisioning via IaC.

Loki + Promtail

Log-Aggregation in K3s und VM-Stacks, Retention-Policies pro Compliance-Anforderung, Label-Cardinality-Tuning für skalierbare Storage-Kosten.

Zabbix

Klassisches Monitoring für Long-Runs und Legacy-Stacks. Auto-Discovery via SNMP, Template-Inheritance, History-Storage auf PostgreSQL.

Checkmk

Applikations-Monitoring mit Auto-Discovery für hybride VM/K8s-Stacks. Custom-Plugins in Python, Notifications mit Eskalations-Pfad.

OpenTelemetry

Vendor-neutrale Tracing-Pipeline, Instrumentierung in Node/Python/Go-Apps, Collector als Sidecar oder DaemonSet.

Sentry

Error-Tracking für Web- und API-Stacks, Source-Map-Upload, Release-Tagging und Per-User-Issue-Aggregation.

Uptime Kuma

Lightweight Statuspages für KMU-Mandate mit Alert-Eskalation.

Netdata

Per-Host High-Resolution-Metrics mit ML-Anomaly-Detection.

SNMP-Monitoring

Netzwerk-Geräte (Cisco/Fortinet/Aruba) über Zabbix/Checkmk eingebunden.