Site Reliability Engineer - STACKIT Control Plane (m/w/d) @ STACKIT [50.000 - 75.000 €]

German Company

Germany Full-time 🌐 German

Salary: €50k - €75k/yr

Posted: February 2, 2026

Added to JobCollate: February 19, 2026

Apply on Source Site →

Source: GermanTechJobs

Tailor your resume to this posting—match keywords and layout for recruiters. Try Resume.io before you apply.

AI Summary Powered by Gemini

This role is for a Site Reliability Engineer focused on the STACKIT Control Plane in Germany. Key requirements include over 3 years of SRE/DevOps experience, expert knowledge of Kubernetes internals, and proficiency in Go for automation. The opportunity is interesting for experienced engineers looking to work on large-scale distributed systems in a production environment.

Tags: Site Reliability Engineering Kubernetes Go Devops Platform Engineering

Job Description

Full Description

Salary: 50.000 - 75.000 € per year Requirements: Mehr als 3 Jahre Erfahrung in Site Reliability Engineering, DevOps oder Platform Engineering, mit Fokus auf Betrieb großer verteilter Systeme in Produktionsumgebungen. Expertenwissen über die Interna der Kubernetes Control Plane, einschließlich API Server, Controller Manager, Scheduler und etcd. Sicherer Umgang mit Go, um produktionsreifen Code für Automatisierungstools, Kubernetes Operatoren oder Integrations-Code zu entwickeln. Fundierte Erfahrung mit Infrastructure as Code und Container-Infrastrukturen sowie tiefgehende Kenntnisse in Linux-Interna (Kernel-Tuning, Memory Management) und Networking (TCP/IP, CNI, Load Balancer, eBPF). Erfahrung im Betrieb von Datastores (z.B. PostgreSQL, Redis) und Messaging-Systemen (z.B. Kafka, NATS) in skalierbaren Umgebungen. Problemlösungsfähigkeiten, mit der Fähigkeit, aus Problemen zu lernen und Automatisierung zu betreiben, ohne sich auf das Prinzip Hoffnung zu verlassen. Responsibilities: Enge Zusammenarbeit mit den Entwicklungsteams, um die Time-to-Detect durch Verbesserung der Monitoring- und Alerting-Infrastruktur zu verkürzen und die Einhaltung der SLOs sicherzustellen. Kontinuierliche Optimierung der Time-to-Mitigation durch Erstellung klarer Playbooks und das Design von Dashboards für First Responder sowie Sicherstellung umfassender Telemetriedaten (Logs und Metriken). Agieren als Reliability Consultant für die Entwicklungsteams, Wissensvermittlung über Reliability-Patterns und Unterstützung des Shift Left-Ansatzes, um ein Modell geteilter Verantwortung zu etablieren. Gestaltung und Optimierung von Entwicklungsprozessen wie CI/CD-Pipelines zur Unterstützung von Progressive-Delivery-Strategien (z.B. Canary Releases und Blue/Green Deployments). Proaktive Analyse der Skalierbarkeit der Control Plane und Behebung von Engpässen in Bereichen wie Distributed Consensus, Datenbank-Durchsatz und Kernel-Level-Networking. Teilnahme an einer vergüteten On-Call-Rotation, Leitung von Incident Responses und Moderation von Post-Mortems sowie Root Cause Analysen. Technologies: API CI/CD Cloud DevOps Kafka Kubernetes Linux NATS PostgreSQL Redis TCP/IP More: Bei STACKIT streben wir danach, die Cloud-Welt zu erobern und die Zukunft Europas zu gestalten. Unsere Vision ist ein digitales, führendes und unabhängiges Europa. Als Cloud- und Colocation-Provider bieten wir eine sichere Infrastruktur mit Serverstandorten ausschließlich in Deutschland und Österreich. Unsere engagierten STACKITEERs entwickeln, testen und verbessern Produkte und Services im Geschäftsbereich STACKIT Products. Als SRE für die STACKIT Control Plane bist du Teil eines dynamischen Teams, das an der Schnittstelle von Entwicklung und Systems Engineering arbeitet und herausfordernde Aufgaben in einem innovativen Umfeld übernimmt. last updated 5 week of 2026