Senior Site Reliability Engineer - STACKIT Control Plane (gn) @ STACKIT [50.000 - 75.000 €]
Source: GermanTechJobs
AI Summary Powered by Gemini
This role is for a Senior Site Reliability Engineer focusing on the STACKIT Control Plane. Key requirements include extensive experience with Kubernetes Control Plane internals and proficiency in Go for automation and operator development. The opportunity is interesting for experienced SREs looking to work on large-scale distributed systems in a production environment.
Job Description
Salary: 50.000 - 75.000 € per year Requirements: Mehr als 3 Jahre Erfahrung in Site Reliability Engineering, DevOps oder Platform Engineering, Fokus auf Betrieb großer verteilter Systeme in Produktionsumgebungen Expertenwissen über die Interna der Kubernetes Control Plane, einschließlich API Server, Controller Manager, Scheduler und etcd Sicheres Beherrschen von Go und Schreiben von produktionsreifem Code für Automatisierungstools, Kubernetes Operatoren oder Integrations-Code Fundierte Erfahrung
Full Description
Salary: 50.000 - 75.000 € per year Requirements: Mehr als 3 Jahre Erfahrung in Site Reliability Engineering, DevOps oder Platform Engineering, Fokus auf Betrieb großer verteilter Systeme in Produktionsumgebungen Expertenwissen über die Interna der Kubernetes Control Plane, einschließlich API Server, Controller Manager, Scheduler und etcd Sicheres Beherrschen von Go und Schreiben von produktionsreifem Code für Automatisierungstools, Kubernetes Operatoren oder Integrations-Code Fundierte Erfahrung mit Infrastructure as Code und Container-Infrastrukturen sowie tiefe Kenntnisse in Linux-Interna (Kernel-Tuning, Memory Management) und Networking (TCP/IP, CNI, Load Balancer, eBPF) Erfahrung im Betrieb von Datastores (z.B. PostgreSQL, Redis) und Messaging-Systemen (z.B. Kafka, NATS) in skalierbaren Umgebungen Fähigkeit, Problemen auf den Grund zu gehen, daraus zu lernen, sich selbst aus dem Job zu automatisieren und nicht auf das Prinzip Hoffnung zu vertrauen Responsibilities: Enger Zusammenarbeit mit den Entwicklungsteams zur Verkürzung der Time-to-Detect durch Verbesserung der Monitoring- und Alerting-Infrastruktur Kontinuierliche Optimierung der Time-to-Mitigation durch Erstellen klarer Playbooks, Design von Dashboards für First Responder und Sicherstellung umfassender Telemetriedaten (Logs und Metriken) Agieren als Reliability Consultant für die Entwicklungsteams, Vermittlung von Wissen über Reliability-Patterns und Unterstützung des Shift Left-Ansatzes zur Etablierung eines Modells der geteilten Verantwortung Gestaltung und Optimierung von Entwicklungsprozessen wie CI/CD-Pipelines zur Unterstützung von Progressive-Delivery-Strategien (z. B. Canary Releases und Blue/Green Deployments) Proaktive Analyse der Skalierbarkeit der Control Plane und Behebung von Engpässen in Bereichen wie Distributed Consensus, Datenbank-Durchsatz und Kernel-Level-Networking Teilnahme an einer vergüteten On-Call-Rotation, Leitung von Incident Responses und Moderation von Post-Mortems sowie Root Cause Analysen Technologies: API CI/CD Cloud DevOps Kafka Kubernetes Linux NATS PostgreSQL Redis TCP/IP More: Wir bei STACKIT suchen leidenschaftliche STACKITEER, die mit uns die Cloud-Welt im Sturm erobern und die Zukunft Europas gestalten möchten. Unsere Vision ist ein unabhängiges, digitales Europa, das führend im Cloud- und Colocation-Bereich ist. Mit unseren Serverstandorten in Deutschland und Österreich bieten wir eine europäische Alternative zu internationalen Cloud-Anbietern und unterstützen unsere Kunden mit individuellen Lösungen. Als Teil des Bereichs STACKIT Products entwickeln, testen und verbessern wir unsere Produkte und Services und kennen jede Herausforderung in der Systemarchitektur an der Schnittstelle von Entwicklung und Systems Engineering. last updated 5 week of 2026