đ«đ· Senior Site Reliability Engineer (SRE) - Cloud
Source: Remotive
AI Summary Powered by Gemini
Scalingo is seeking a Senior Site Reliability Engineer to ensure the stability, availability, and resilience of their European cloud platform. This role involves technical responsibilities, evolving SRE practices, and mentoring a small team, with a future path towards management. It's an exciting opportunity to impact a growing SaaS startup focused on reliability and operational excellence.
Job Description
đ«đ· This job ad is written in French. đ«đ· đ Ă propos de Scalingo Scalingo est une startup technologique en forte croissance. Notre plateforme cloud europĂ©enne, robuste et souveraine, libĂšre les Ă©quipes techniques des contraintes dâinfrastructure, pour leur permettre de se concentrer sur ce qui compte vraiment : crĂ©er, innover et dĂ©livrer. Notre PaaS permet de dĂ©ployer et dâhĂ©berger facilement des applications web et des bases de donnĂ©es, sans avoir Ă gĂ©rer lâadministration systĂšme ou lâinfrastructure sous-jacente. Nous accompagnons une grande diversitĂ© de clients â startups, scale-ups, grands groupes et institutions publiques â parmi lesquels le MinistĂšre de lâIntĂ©rieur ou ENGIE, avec une exigence Ă©levĂ©e en matiĂšre de fiabilitĂ©, de sĂ©curitĂ© et de qualitĂ© de service. đŻ Ton rĂŽle chez Scalingo En tant que Senior Site Reliability Engineer, tu occupes une position clĂ© Ă lâinterface des Ă©quipes dĂ©veloppement, infrastructure, sĂ©curitĂ© et support.A terme, nous ennvisageons une Ă©volution vers un rĂŽle managĂ©rial. Ton rĂŽle est Ă la fois : technique, avec un fort impact sur la fiabilitĂ© et la performance de la plateforme, structurant, en faisant Ă©voluer les pratiques et les outils SRE et audelĂ ., fĂ©dĂ©rateur, en accompagnant et faisant monter en compĂ©tence une Ă©quipe SRE de 2 personnes. Tu interviens aussi bien sur le fonctionnement quotidien de lâactivitĂ© SRE que sur les projets stratĂ©giques liĂ©s Ă la croissance de la plateforme. RĂ©fĂ©rent ou rĂ©fĂ©rente technique, tu incarnes les bonnes pratiques SRE et contribues Ă diffuser une culture de la fiabilitĂ©, de lâautomatisation et de lâexcellence opĂ©rationnelle au sein de Scalingo. đ§© Pourquoi ce rĂŽle est essentiel Garantir la stabilitĂ©, la disponibilitĂ© et la rĂ©silience des systĂšmes en production. Anticiper les dĂ©faillances et structurer des rĂ©ponses efficaces aux incidents. Industrialiser et automatiser lâexploitation de la plateforme. Maintenir un haut niveau de qualitĂ© de service vis-Ă -vis de nos clients et de nos engagements contractuels (SLA). Chaque amĂ©lioration que tu apportes contribue directement Ă la robustesse de la plateforme, Ă la rĂ©duction des incidents, Ă la maĂźtrise des coĂ»ts opĂ©rationnels et Ă lâaccompagnement de la croissance de Scalingo. đ€ Organisation & Ă©volution RattachĂ© directement Ă un Engineering Manager, tu exerces un leadership technique et opĂ©rationnel fort, sans responsabilitĂ© hiĂ©rarchique directe dans un premier temps. Ă moyen terme, nous souhaitons que ce rĂŽle Ă©volue vers le management hierarchique de lâĂ©quipe SRE. Si cette perspective tâintĂ©resse, nous tâaccompagnerons activement dans ta montĂ©e en compĂ©tences managĂ©riale. Vos missions Leadership technique et animation de lâĂ©quipe SRE Encadrer techniquement lâĂ©quipe SRE au quotidien : accompagnement, priorisation, revue des choix techniques et des implĂ©mentations. Guider, former et faire monter en compĂ©tence les membres de lâĂ©quipe, en favorisant lâautonomie et la prise dâinitiative. Transmettre les bonnes pratiques SRE (fiabilitĂ©, observabilitĂ©, gestion dâincidents, automatisation). Ătre moteur dans lâorganisation du travail de lâĂ©quipe (processus, rituels, documentation). Porter la vision technique SRE et la dĂ©cliner dans les projets structurants. Fiabilisation et amĂ©lioration continue des services Analyser les performances, identifier les points de contention et proposer des amĂ©liorations pour optimiser lâutilisation des ressources et la montĂ©e en charge. DĂ©finir, mettre en place et amĂ©liorer les outils dâobservabilitĂ© (monitoring, mĂ©triques, logs, alerting), avec une approche proactive de la dĂ©tection dâincidents. RĂ©diger des processus dâexploitation, les maintenir et les faire Ă©voluer. Assurer une veille technologique continue afin de proposer des Ă©volutions pertinentes de lâinfrastructure. Gestion des incidents et support Assurer en partie le support client de niveau 3, en lien avec les Ă©quipes support et selon les SLA. Participer activement Ă la gestion des incidents, ainsi qu'aux cycles d'astreintes (environ une demi-semaine toutes les trois semaines). Intervenir rapidement lors des incidents critiques afin dâen limiter lâimpact et dâassurer la continuitĂ© des services. Piloter et animer les rĂ©trospectives dâincidents (post-mortems), en identifiant les causes racines et en dĂ©finissant des actions correctives durables. RĂ©diger et publier les rapports post-mortem Ă la suite des incidents majeurs. Assurer la coordination et la communication de crise, en interne comme auprĂšs des clients. SĂ©curitĂ©, conformitĂ© et continuitĂ© dâactivitĂ© Veiller au respect des engagements de service (SLA, RPO, RTO) sur le pĂ©rimĂštre SRE. Mettre en place des indicateurs de mesure de la qualitĂ© des services (SLO). Contribuer activement Ă la conformitĂ© ISO 27001 et HDS : respect des processus, participation aux audits internes et externes. Planifier, exĂ©cuter et analyser les tests rĂ©guliers des dispositifs de continuitĂ© et de reprise dâactivitĂ© (PCA/PRA). Collaboration interne et contribution transverse Collaborer Ă©troitement avec les Ă©quipes de dĂ©veloppement afin dâintĂ©grer les exigences dâexploitabilitĂ© (fiabilitĂ©, performance, sĂ©curitĂ© opĂ©rationnelle) dĂšs la conception. Ătre force de proposition auprĂšs des Ă©quipes produit et techniques sur les sujets de fiabilitĂ©, dâexpĂ©rience client et des outils d'administration. Contribuer Ă la rĂ©daction, Ă la structuration et au maintien dâune documentation opĂ©rationnelle claire et Ă jour. Vos compĂ©tences đ Ce que tu sais faire en arrivant : Une solide expertise des environnements cloud et infrastructures distribuĂ©es, avec une culture forte de la haute disponibilitĂ© et de la fiabilitĂ© en production. Une maĂźtrise des pratiques dâobservabilitĂ© (logs, mĂ©triques, alerting) et une capacitĂ© de diagnostic structurĂ©e sur des incidents complexes. Une bonne comprĂ©hension des environnements conteneurisĂ©s et de leurs enjeux opĂ©rationnels. Des compĂ©tences confirmĂ©es en bases de donnĂ©es en production : fiabilitĂ©, sauvegardes, restauration, rĂ©plication et montĂ©e en charge. Une pratique de lâInfrastructure as Code et de lâautomatisation des environnements. Une sensibilitĂ© aux enjeux de sĂ©curitĂ© opĂ©rationnelle. Une aisance dans lâutilisation des outils dâIntelligence Artificielle pour gagner en efficacitĂ© au quotidien. Une capacitĂ© Ă Ă©voluer dans des contextes complexes, changeants ou incertains, avec rigueur et fiabilitĂ©. Une aisance dans la priorisation, y compris en situation dâincident. Une communication claire et structurĂ©e, un goĂ»t pour la collaboration transverse et le partage des connaissances. Une posture blameless, de la curiositĂ© technique, du sang-froid et une attention portĂ©e Ă lâimpact utilisateur. Une capacitĂ© Ă exercer un leadership technique, Ă transmettre et Ă faire progresser les pratiques collectives. Avantages Full remote avec 1 dĂ©placement par trimestre (Strasbourg ou autre ville) EvenĂ©ments d'entreprise : 1 Offsite annuel et des afterworks rĂ©guliers Prime de tĂ©lĂ©travail (57,60âŹ) Ticket Restaurant (11,52 ⏠par unitĂ©) et carte Swile avec ses avantages Mutuelle prise en charge Ă 100% par Scalingo (BENEFIZ) Horaires flexibles en convention de forfait horaires (RTT) Ordinateur portable sous Linux Budget d'Ă©quipements complĂ©mentaires (participation) đ§ Processus de recrutement Call de prĂ©-qualification (30 min) : nous tâappelons pour te prĂ©senter lâoffre et la clarifier si besoin. Câest toi qui dĂ©cides si tu souhaites poursuivre lâĂ©tape suivante. Test de prĂ©-screening (30 min) : un test standardisĂ© de type QCM, Ă passer en ligne. Il nous permet dâĂ©valuer les candidatures de maniĂšre objective, en limitant les biais de recrutement. Une note minimale est requise pour passer cette Ă©tape. Test hard-skill (quelques heures sur 7 jours) : un test technique Ă rĂ©aliser et Ă nous restituer Ă la date de ton choix, aprĂšs avoir pris connaissance des consignes. Lâobjectif est dâĂ©valuer tes compĂ©tences, tes habitudes et tes bonnes pratiques en lien avec le poste. Nous t'encouragerons Ă dĂ©montrer que tu sais utiliser le meilleur de l'I.A. Premier entretien structurĂ© â skill & aptitude fit (1h30) : un Ă©change avec les membres de lâĂ©quipe impliquĂ©s dans le recrutement, pour discuter de tes compĂ©tences et de ton expĂ©rience, et Ă©valuer leur adĂ©quation avec le poste. Second entretien structurĂ© â culture fit & confirmation mutuelle (1h30) : un entretien avec un co-fondateur ou un autre membre de lâĂ©quipe, afin de vĂ©rifier des deux cĂŽtĂ©s que nous avons envie de travailler ensemble. đ± La vie chez Scalingo Chez Scalingo, nous sommes un acteur technologique exigeant, au service aussi bien de startups que de grandes entreprises et dâinstitutions publiques, sans ĂȘtre une mĂ©ga-corporation. Cette position nous permet de conjuguer haut niveau dâexigence technique, impact concret et environnement de travail Ă taille humaine. Nous cultivons une culture du no bullshit : nous faisons ce que nous disons, nous prenons la responsabilitĂ© de nos succĂšs comme de nos Ă©checs, et nous privilĂ©gions des Ă©changes honnĂȘtes et directs. LâamĂ©lioration continue fait partie de notre ADN : nous questionnons rĂ©guliĂšrement nos produits, nos pratiques et notre organisation pour progresser durablement. Chez Scalingo, nous avançons ensemble. La collaboration, la confiance et le soutien mutuel sont au cĆur de notre maniĂšre de travailler. Nous Ă©vitons les silos et favorisons la transparence par dĂ©faut, afin que chacun puisse comprendre les enjeux, les dĂ©cisions et le travail des autres. Nous accordons une grande importance Ă lâautonomie et Ă la responsabilitĂ©. Chacun est encouragĂ© Ă prendre des initiatives, Ă faire des choix Ă©clairĂ©s et Ă contribuer activement Ă lâĂ©volution de lâentreprise, avec un cadre managĂ©rial prĂ©sent et un suivi rĂ©gulier. Enfin, nous croyons fermement Ă lâĂ©galitĂ© des opportunitĂ©s. Nous recrutons des personnes avant des CV, valorisons la diversitĂ© des parcours et veillons Ă crĂ©er un environnement respectueux, inclusif et Ă©quitable pour toutes et tous.
Full Description
đ«đ· This job ad is written in French. đ«đ· đ Ă propos de Scalingo Scalingo est une startup technologique en forte croissance. Notre plateforme cloud europĂ©enne, robuste et souveraine, libĂšre les Ă©quipes techniques des contraintes dâinfrastructure, pour leur permettre de se concentrer sur ce qui compte vraiment : crĂ©er, innover et dĂ©livrer. Notre PaaS permet de dĂ©ployer et dâhĂ©berger facilement des applications web et des bases de donnĂ©es, sans avoir Ă gĂ©rer lâadministration systĂšme ou lâinfrastructure sous-jacente. Nous accompagnons une grande diversitĂ© de clients â startups, scale-ups, grands groupes et institutions publiques â parmi lesquels le MinistĂšre de lâIntĂ©rieur ou ENGIE, avec une exigence Ă©levĂ©e en matiĂšre de fiabilitĂ©, de sĂ©curitĂ© et de qualitĂ© de service. đŻ Ton rĂŽle chez Scalingo En tant que Senior Site Reliability Engineer, tu occupes une position clĂ© Ă lâinterface des Ă©quipes dĂ©veloppement, infrastructure, sĂ©curitĂ© et support.A terme, nous ennvisageons une Ă©volution vers un rĂŽle managĂ©rial. Ton rĂŽle est Ă la fois : technique, avec un fort impact sur la fiabilitĂ© et la performance de la plateforme, structurant, en faisant Ă©voluer les pratiques et les outils SRE et audelĂ ., fĂ©dĂ©rateur, en accompagnant et faisant monter en compĂ©tence une Ă©quipe SRE de 2 personnes. Tu interviens aussi bien sur le fonctionnement quotidien de lâactivitĂ© SRE que sur les projets stratĂ©giques liĂ©s Ă la croissance de la plateforme. RĂ©fĂ©rent ou rĂ©fĂ©rente technique, tu incarnes les bonnes pratiques SRE et contribues Ă diffuser une culture de la fiabilitĂ©, de lâautomatisation et de lâexcellence opĂ©rationnelle au sein de Scalingo. đ§© Pourquoi ce rĂŽle est essentiel Garantir la stabilitĂ©, la disponibilitĂ© et la rĂ©silience des systĂšmes en production. Anticiper les dĂ©faillances et structurer des rĂ©ponses efficaces aux incidents. Industrialiser et automatiser lâexploitation de la plateforme. Maintenir un haut niveau de qualitĂ© de service vis-Ă -vis de nos clients et de nos engagements contractuels (SLA). Chaque amĂ©lioration que tu apportes contribue directement Ă la robustesse de la plateforme, Ă la rĂ©duction des incidents, Ă la maĂźtrise des coĂ»ts opĂ©rationnels et Ă lâaccompagnement de la croissance de Scalingo. đ€ Organisation & Ă©volution RattachĂ© directement Ă un Engineering Manager, tu exerces un leadership technique et opĂ©rationnel fort, sans responsabilitĂ© hiĂ©rarchique directe dans un premier temps. Ă moyen terme, nous souhaitons que ce rĂŽle Ă©volue vers le management hierarchique de lâĂ©quipe SRE. Si cette perspective tâintĂ©resse, nous tâaccompagnerons activement dans ta montĂ©e en compĂ©tences managĂ©riale. Vos missions Leadership technique et animation de lâĂ©quipe SRE Encadrer techniquement lâĂ©quipe SRE au quotidien : accompagnement, priorisation, revue des choix techniques et des implĂ©mentations. Guider, former et faire monter en compĂ©tence les membres de lâĂ©quipe, en favorisant lâautonomie et la prise dâinitiative. Transmettre les bonnes pratiques SRE (fiabilitĂ©, observabilitĂ©, gestion dâincidents, automatisation). Ătre moteur dans lâorganisation du travail de lâĂ©quipe (processus, rituels, documentation). Porter la vision technique SRE et la dĂ©cliner dans les projets structurants. Fiabilisation et amĂ©lioration continue des services Analyser les performances, identifier les points de contention et proposer des amĂ©liorations pour optimiser lâutilisation des ressources et la montĂ©e en charge. DĂ©finir, mettre en place et amĂ©liorer les outils dâobservabilitĂ© (monitoring, mĂ©triques, logs, alerting), avec une approche proactive de la dĂ©tection dâincidents. RĂ©diger des processus dâexploitation, les maintenir et les faire Ă©voluer. Assurer une veille technologique continue afin de proposer des Ă©volutions pertinentes de lâinfrastructure. Gestion des incidents et support Assurer en partie le support client de niveau 3, en lien avec les Ă©quipes support et selon les SLA. Participer activement Ă la gestion des incidents, ainsi qu'aux cycles d'astreintes (environ une demi-semaine toutes les trois semaines). Intervenir rapidement lors des incidents critiques afin dâen limiter lâimpact et dâassurer la continuitĂ© des services. Piloter et animer les rĂ©trospectives dâincidents (post-mortems), en identifiant les causes racines et en dĂ©finissant des actions correctives durables. RĂ©diger et publier les rapports post-mortem Ă la suite des incidents majeurs. Assurer la coordination et la communication de crise, en interne comme auprĂšs des clients. SĂ©curitĂ©, conformitĂ© et continuitĂ© dâactivitĂ© Veiller au respect des engagements de service (SLA, RPO, RTO) sur le pĂ©rimĂštre SRE. Mettre en place des indicateurs de mesure de la qualitĂ© des services (SLO). Contribuer activement Ă la conformitĂ© ISO 27001 et HDS : respect des processus, participation aux audits internes et externes. Planifier, exĂ©cuter et analyser les tests rĂ©guliers des dispositifs de continuitĂ© et de reprise dâactivitĂ© (PCA/PRA). Collaboration interne et contribution transverse Collaborer Ă©troitement avec les Ă©quipes de dĂ©veloppement afin dâintĂ©grer les exigences dâexploitabilitĂ© (fiabilitĂ©, performance, sĂ©curitĂ© opĂ©rationnelle) dĂšs la conception. Ătre force de proposition auprĂšs des Ă©quipes produit et techniques sur les sujets de fiabilitĂ©, dâexpĂ©rience client et des outils d'administration. Contribuer Ă la rĂ©daction, Ă la structuration et au maintien dâune documentation opĂ©rationnelle claire et Ă jour. Vos compĂ©tences đ Ce que tu sais faire en arrivant : Une solide expertise des environnements cloud et infrastructures distribuĂ©es, avec une culture forte de la haute disponibilitĂ© et de la fiabilitĂ© en production. Une maĂźtrise des pratiques dâobservabilitĂ© (logs, mĂ©triques, alerting) et une capacitĂ© de diagnostic structurĂ©e sur des incidents complexes. Une bonne comprĂ©hension des environnements conteneurisĂ©s et de leurs enjeux opĂ©rationnels. Des compĂ©tences confirmĂ©es en bases de donnĂ©es en production : fiabilitĂ©, sauvegardes, restauration, rĂ©plication et montĂ©e en charge. Une pratique de lâInfrastructure as Code et de lâautomatisation des environnements. Une sensibilitĂ© aux enjeux de sĂ©curitĂ© opĂ©rationnelle. Une aisance dans lâutilisation des outils dâIntelligence Artificielle pour gagner en efficacitĂ© au quotidien. Une capacitĂ© Ă Ă©voluer dans des contextes complexes, changeants ou incertains, avec rigueur et fiabilitĂ©. Une aisance dans la priorisation, y compris en situation dâincident. Une communication claire et structurĂ©e, un goĂ»t pour la collaboration transverse et le partage des connaissances. Une posture blameless, de la curiositĂ© technique, du sang-froid et une attention portĂ©e Ă lâimpact utilisateur. Une capacitĂ© Ă exercer un leadership technique, Ă transmettre et Ă faire progresser les pratiques collectives. Avantages Full remote avec 1 dĂ©placement par trimestre (Strasbourg ou autre ville) EvenĂ©ments d'entreprise : 1 Offsite annuel et des afterworks rĂ©guliers Prime de tĂ©lĂ©travail (57,60âŹ) Ticket Restaurant (11,52 ⏠par unitĂ©) et carte Swile avec ses avantages Mutuelle prise en charge Ă 100% par Scalingo (BENEFIZ) Horaires flexibles en convention de forfait horaires (RTT) Ordinateur portable sous Linux Budget d'Ă©quipements complĂ©mentaires (participation) đ§ Processus de recrutement Call de prĂ©-qualification (30 min) : nous tâappelons pour te prĂ©senter lâoffre et la clarifier si besoin. Câest toi qui dĂ©cides si tu souhaites poursuivre lâĂ©tape suivante. Test de prĂ©-screening (30 min) : un test standardisĂ© de type QCM, Ă passer en ligne. Il nous permet dâĂ©valuer les candidatures de maniĂšre objective, en limitant les biais de recrutement. Une note minimale est requise pour passer cette Ă©tape. Test hard-skill (quelques heures sur 7 jours) : un test technique Ă rĂ©aliser et Ă nous restituer Ă la date de ton choix, aprĂšs avoir pris connaissance des consignes. Lâobjectif est dâĂ©valuer tes compĂ©tences, tes habitudes et tes bonnes pratiques en lien avec le poste. Nous t'encouragerons Ă dĂ©montrer que tu sais utiliser le meilleur de l'I.A. Premier entretien structurĂ© â skill & aptitude fit (1h30) : un Ă©change avec les membres de lâĂ©quipe impliquĂ©s dans le recrutement, pour discuter de tes compĂ©tences et de ton expĂ©rience, et Ă©valuer leur adĂ©quation avec le poste. Second entretien structurĂ© â culture fit & confirmation mutuelle (1h30) : un entretien avec un co-fondateur ou un autre membre de lâĂ©quipe, afin de vĂ©rifier des deux cĂŽtĂ©s que nous avons envie de travailler ensemble. đ± La vie chez Scalingo Chez Scalingo, nous sommes un acteur technologique exigeant, au service aussi bien de startups que de grandes entreprises et dâinstitutions publiques, sans ĂȘtre une mĂ©ga-corporation. Cette position nous permet de conjuguer haut niveau dâexigence technique, impact concret et environnement de travail Ă taille humaine. Nous cultivons une culture du no bullshit : nous faisons ce que nous disons, nous prenons la responsabilitĂ© de nos succĂšs comme de nos Ă©checs, et nous privilĂ©gions des Ă©changes honnĂȘtes et directs. LâamĂ©lioration continue fait partie de notre ADN : nous questionnons rĂ©guliĂšrement nos produits, nos pratiques et notre organisation pour progresser durablement. Chez Scalingo, nous avançons ensemble. La collaboration, la confiance et le soutien mutuel sont au cĆur de notre maniĂšre de travailler. Nous Ă©vitons les silos et favorisons la transparence par dĂ©faut, afin que chacun puisse comprendre les enjeux, les dĂ©cisions et le travail des autres. Nous accordons une grande importance Ă lâautonomie et Ă la responsabilitĂ©. Chacun est encouragĂ© Ă prendre des initiatives, Ă faire des choix Ă©clairĂ©s et Ă contribuer activement Ă lâĂ©volution de lâentreprise, avec un cadre managĂ©rial prĂ©sent et un suivi rĂ©gulier. Enfin, nous croyons fermement Ă lâĂ©galitĂ© des opportunitĂ©s. Nous recrutons des personnes avant des CV, valorisons la diversitĂ© des parcours et veillons Ă crĂ©er un environnement respectueux, inclusif et Ă©quitable pour toutes et tous.