DevOps/Platform Expert (AI & Agentic Systems)
Source: Arbeitnow
AI Summary Powered by Gemini
Cloudiax AG is seeking a DevOps/Platform Expert with a focus on AI and Agentic Systems to manage cloud-native infrastructure, including Kubernetes and GPU scheduling. The role involves optimizing AI inference, managing models, and ensuring quality through techniques like RAG, making it an interesting opportunity for experienced professionals in a leading cloud technology provider.
Job Description
Cloudiax ist ein führender Anbieter von Cloud-Technologien mit mehr als 280 internationalen Partnern und über 1100 SAP-Kunden in 90 Ländern. Wir ermöglichen kleinen und mittelständischen Unternehmen weltweit die Nutzung von Anwendungen wie SAP Business One und KI-Lösungen in unserer Cloud. Als globaler Marktführer bieten wir eine sichere, schnelle und zuverlässige Cloud-Plattform – Made in Germany. Mit Rechenzentren in Deutschland, Kanada und Singapur stellen wir rund um die Uhr höchste Servicequalität sicher. Zur Verstärkung unseres Teams suchen wir dich – engagiert, technisch stark und bereit, Verantwortung zu übernehmen. Ab sofort und Remote. Aufgaben Cloud-Native & Infrastruktur Kubernetes: Tiefe Erfahrung in Cluster-Orchestrierung, GPU-Scheduling, Device-Plugins und Mandanten-Isolierung in Rechenzentren. Hardware-Abstraktion: Praktische Erfahrung mit Multi-Instance GPU (MIG) zur effizienten, sicheren Aufteilung physischer GPUs auf unterschiedliche Kunden-Workloads. Managed Backends: Sicherer Betrieb von Managed Postgres und Skalierung von Vektor-Datenbanken für performante Retrieval-Architekturen. Schnittstellen & Security: Kenntnisse in Keycloak, Kong API Gateway oder vergleichbaren Tools für sicheren Zugriff und exakte Abrechnung. DevOps & CI/CD: Erfahrung mit Git, CI/CD-Pipelines und Infrastructure-as-Code für schnelle, zuverlässige und dokumentierte Deployments. KI-Expertise & Inferenz-Logik Inferenz-Optimierung: Erfahrung mit KV-Caching, Batching, Quantisierung und Serving-Frameworks wie vLLM oder NVIDIA Triton. Modell-Kombination & Kostenmanagement: Wissen, wie kleine spezialisierte und große Generalisten-Modelle kombiniert werden, um Kosten und Latenz zu optimieren – Open und Closed Models. Qualitätssicherung: Techniken zur Reduzierung von Halluzinationen, z. B. Retrieval-Augmented Generation (RAG) und Bereitstellung valider Datenkontexte auf Infrastruktur-Ebene. Agenten & Frameworks: Operationalisierung von LangChain, LangGraph oder AutoGen sowie Management komplexer Deep Agents, die autonom mehrere Schritte ausführen. Monitoring & Skalierung (AI-Native) Observability: Tracing für Agenten-Entscheidungen (z. B. OpenTelemetry, LangSmith), um Abläufe im Rechenzentrum nachvollziehbar zu machen. KI-spezifisches Auto-Scaling: Skalierung basierend auf Token-Durchsatz oder Modell-Kontext-Auslastung, nicht nur CPU-Metriken. Qualifikation Du musst kein Prompt-Engineer sein, aber du verstehst, wie KI „arbeitet“. Wichtig ist, dass du neue Ansätze (z. B. Inferenzmethoden oder Agenten-Strukturen) schnell erfassen und in stabile, mandantenfähige Rechenzentrums-Infrastrukturen integrieren kannst. Experimentierfreude: Freude an Systemen, die nicht immer deterministisch reagieren. Security & Safety: Bewusstsein für AI-Security (Sandboxing, Schutz vor Prompt-Injections) bei jedem System. Benefits 100% Remote-Arbeitsplatz mit großer zeitlicher Flexibilität attraktives Jahresgehalt, sowie automatische KPI-basierte Gehaltserhöhungen und attraktive Jahresboni. 30+ Tage Erholungsurlaub. Voll ausgestatteter Premium-Homeoffice-Arbeitsplatz. Firmen-(e)Bike, betriebliche Kranken-Zusatzversicherung und weitere Corporate Benefits. Arbeiten in einem internationalen Umfeld bei einem der weltweit führenden Cloud-Provider im SAP-Umfeld. Haben wir dein Interesse geweckt? Dann lade hier gerne deine vollständigen Bewerbungsunterlagen hoch (Lebenslauf, Zeugnisse, Gehaltsvorstellung, frühestmöglicher Eintrittstermin). Find Jobs in Germany on Arbeitnow
Full Description
Cloudiax ist ein führender Anbieter von Cloud-Technologien mit mehr als 280 internationalen Partnern und über 1100 SAP-Kunden in 90 Ländern. Wir ermöglichen kleinen und mittelständischen Unternehmen weltweit die Nutzung von Anwendungen wie SAP Business One und KI-Lösungen in unserer Cloud. Als globaler Marktführer bieten wir eine sichere, schnelle und zuverlässige Cloud-Plattform – Made in Germany. Mit Rechenzentren in Deutschland, Kanada und Singapur stellen wir rund um die Uhr höchste Servicequalität sicher. Zur Verstärkung unseres Teams suchen wir dich – engagiert, technisch stark und bereit, Verantwortung zu übernehmen. Ab sofort und Remote. Aufgaben Cloud-Native & Infrastruktur Kubernetes: Tiefe Erfahrung in Cluster-Orchestrierung, GPU-Scheduling, Device-Plugins und Mandanten-Isolierung in Rechenzentren. Hardware-Abstraktion: Praktische Erfahrung mit Multi-Instance GPU (MIG) zur effizienten, sicheren Aufteilung physischer GPUs auf unterschiedliche Kunden-Workloads. Managed Backends: Sicherer Betrieb von Managed Postgres und Skalierung von Vektor-Datenbanken für performante Retrieval-Architekturen. Schnittstellen & Security: Kenntnisse in Keycloak, Kong API Gateway oder vergleichbaren Tools für sicheren Zugriff und exakte Abrechnung. DevOps & CI/CD: Erfahrung mit Git, CI/CD-Pipelines und Infrastructure-as-Code für schnelle, zuverlässige und dokumentierte Deployments. KI-Expertise & Inferenz-Logik Inferenz-Optimierung: Erfahrung mit KV-Caching, Batching, Quantisierung und Serving-Frameworks wie vLLM oder NVIDIA Triton. Modell-Kombination & Kostenmanagement: Wissen, wie kleine spezialisierte und große Generalisten-Modelle kombiniert werden, um Kosten und Latenz zu optimieren – Open und Closed Models. Qualitätssicherung: Techniken zur Reduzierung von Halluzinationen, z. B. Retrieval-Augmented Generation (RAG) und Bereitstellung valider Datenkontexte auf Infrastruktur-Ebene. Agenten & Frameworks: Operationalisierung von LangChain, LangGraph oder AutoGen sowie Management komplexer Deep Agents, die autonom mehrere Schritte ausführen. Monitoring & Skalierung (AI-Native) Observability: Tracing für Agenten-Entscheidungen (z. B. OpenTelemetry, LangSmith), um Abläufe im Rechenzentrum nachvollziehbar zu machen. KI-spezifisches Auto-Scaling: Skalierung basierend auf Token-Durchsatz oder Modell-Kontext-Auslastung, nicht nur CPU-Metriken. Qualifikation Du musst kein Prompt-Engineer sein, aber du verstehst, wie KI „arbeitet“. Wichtig ist, dass du neue Ansätze (z. B. Inferenzmethoden oder Agenten-Strukturen) schnell erfassen und in stabile, mandantenfähige Rechenzentrums-Infrastrukturen integrieren kannst. Experimentierfreude: Freude an Systemen, die nicht immer deterministisch reagieren. Security & Safety: Bewusstsein für AI-Security (Sandboxing, Schutz vor Prompt-Injections) bei jedem System. Benefits 100% Remote-Arbeitsplatz mit großer zeitlicher Flexibilität attraktives Jahresgehalt, sowie automatische KPI-basierte Gehaltserhöhungen und attraktive Jahresboni. 30+ Tage Erholungsurlaub. Voll ausgestatteter Premium-Homeoffice-Arbeitsplatz. Firmen-(e)Bike, betriebliche Kranken-Zusatzversicherung und weitere Corporate Benefits. Arbeiten in einem internationalen Umfeld bei einem der weltweit führenden Cloud-Provider im SAP-Umfeld. Haben wir dein Interesse geweckt? Dann lade hier gerne deine vollständigen Bewerbungsunterlagen hoch (Lebenslauf, Zeugnisse, Gehaltsvorstellung, frühestmöglicher Eintrittstermin). Find Jobs in Germany on Arbeitnow