Site Reliability Engineer - STACKIT Control Plane (m/w/x) @ STACKIT [50.000 - 75.000 €]

German Company
Germany Full-time 🌐 German
GC
Salary: €50k - €75k/yr
Posted: February 2, 2026
Added to JobCollate: February 19, 2026

AI Summary Powered by Gemini

This role is for a Site Reliability Engineer focused on the STACKIT Control Plane, requiring expertise in Kubernetes internals and production environments. The opportunity involves developing automation tools and operators in Go for a large-scale distributed system.

Job Description

Salary: 50.000 - 75.000 € per year Requirements: Mehr als 3 Jahre Erfahrung in Site Reliability Engineering, DevOps oder Platform Engineering mit Fokus auf Betrieb großer verteilter Systeme in Produktionsumgebungen Expertenwissen über die Interna der Kubernetes Control Plane, einschließlich API Server, Controller Manager, Scheduler und etcd Sicher in Go und fähig, produktionsreifen Code für Automatisierungstools, Kubernetes Operatoren oder Integrations-Code zu schreiben Fundierte Erfahrung mit I

Full Description

Salary: 50.000 - 75.000 € per year Requirements: Mehr als 3 Jahre Erfahrung in Site Reliability Engineering, DevOps oder Platform Engineering mit Fokus auf Betrieb großer verteilter Systeme in Produktionsumgebungen Expertenwissen über die Interna der Kubernetes Control Plane, einschließlich API Server, Controller Manager, Scheduler und etcd Sicher in Go und fähig, produktionsreifen Code für Automatisierungstools, Kubernetes Operatoren oder Integrations-Code zu schreiben Fundierte Erfahrung mit Infrastructure as Code und Container-Infrastrukturen sowie tiefgehende Kenntnisse in Linux-Interna (Kernel-Tuning, Memory Management) und Networking (TCP/IP, CNI, Load Balancer, eBPF) Erfahrung im Betrieb von Datastores (z.B. PostgreSQL, Redis) und Messaging-Systemen (z.B. Kafka, NATS) in skalierbaren Umgebungen Problemlösungsorientiert und fähig, zu lernen und zu automatisieren, um sich selbst aus dem Job zu befreien Responsibilities: Eng mit den Entwicklungsteams zusammenarbeiten, um die Time-to-Detect zu verkürzen durch Verbesserung der Monitoring- und Alerting-Infrastruktur und Sicherstellung der Einhaltung der SLOs Kontinuierliche Optimierung der Time-to-Mitigation durch Erstellen klarer Playbooks, Design von Dashboards für First Responder und Sicherstellung umfassender Telemetriedaten (Logs und Metriken) Als Reliability Consultant für die Entwicklungsteams agieren, Wissen über Reliability-Patterns vermitteln und den Shift Left-Ansatz unterstützen Entwicklungsprozesse wie CI/CD-Pipelines gestalten und optimieren, um Progressive-Delivery-Strategien (z. B. Canary Releases und Blue/Green Deployments) zu unterstützen Proaktive Analyse der Skalierbarkeit der Control Plane und Behebung von Engpässen in Bereichen wie Distributed Consensus, Datenbank-Durchsatz und Kernel-Level-Networking An einer vergüteten On-Call-Rotation teilnehmen, Incident Responses leiten und Post-Mortems sowie Root Cause Analysen moderieren Technologies: API CI/CD Cloud DevOps Kafka Kubernetes Linux NATS PostgreSQL Redis TCP/IP More: Wir bei STACKIT streben danach, die Cloud-Welt zu revolutionieren und die Zukunft Europas zu gestalten. Unsere Vision ist es, ein unabhängiges, digitales Europa aufzubauen. Als Cloud- und Colocation-Provider bieten wir eine sichere Infrastruktur und individuelle Lösungen, mit Serverstandorten ausschließlich in Deutschland und Österreich. In unserem Geschäftsbereich STACKIT Products werden Produkte und Services entwickelt, getestet und verbessert. In der Rolle als SRE für die STACKIT Control Plane gestaltest du die Systemarchitektur zwischen Entwicklung und Systems Engineering. last updated 5 week of 2026