Senior Site Reliability Engineer (m/w/d)

Work from home Full-time role Hiring

Empower every employee. Our mission is to be the world's most used AI employee experience platform by changing the way frontline employees work. Flip is the leading AI-powered employee experience platform for frontline workers. We're transforming how people do their jobs across the industries that keep the world running: retail, manufacturing, and logistics. One app. One touch. Everything they need. Our mission: Connect every employee to everything they need in one touch. Stellenbeschreibung Als Senior Site Reliability Engineer in unserem Platform Squad übernimmst du die End-to-End-Verantwortung für kritische Reliability-Bereiche und treibst die technische Ausrichtung innerhalb des Squads voran. Du leitest Architektur-Entscheidungen auf unserer Plattform, mentorst Teammitglieder und legst die Messlatte für Zuverlässigkeit innerhalb des Teams kontinuierlich höher. Diese Rolle ist für Engineers mit einer nachgewiesenen Erfolgsbilanz beim Aufbau und Betrieb von hochverfügbaren High-Throughput-Systemen gedacht, die technische Ownership auf Senior-Level und echten Impact durch tiefgehende Engineering-Arbeit in einem eng vernetzten, klar definierten Team suchen. Was dich bei uns erwartet Co-Owner der Architektur: Hilf dabei, die Architektur und Weiterentwicklung unserer Cloud-Infrastruktur auf Azure und unserer Kubernetes-Cluster voranzutreiben – konzipiert für hohen Durchsatz und höchste Verfügbarkeit – um Flips schnelles globales Wachstum zu unterstützen. Die Resilience-Strategie vorantreiben: Definiere unseren Ansatz für globales Skalieren, Zero-Downtime-Deployments, Rollback-Mechanismen sowie Disaster Recovery und stelle sicher, dass die Plattform rund um die Uhr verfügbar bleibt. Unseren Observability-Stack weiterentwickeln: Optimiere unseren LGTM-Stack (Loki, Grafana, Tempo, Mimir) zu einem Fundament, dem unsere Engineers vertrauen können. Unsere IaC-Plattform verbessern: Du eliminierst Routineaufwand an der Quelle und machst unsere Infrastruktur für die Engineering-Teams zu einem echten Self-Service. Führung bei Incidents: Du übernimmst eine führende Rolle bei größeren Plattform-Störungen, leitest sachliche Fehleranalysen (Blameless Post-Mortems) und wandelst Erkenntnisse in dauerhafte Verbesserungen um. Mentoring innerhalb des Squads: Coache Teammitglieder, leite RFCs und Design-Reviews im Team und hilf Engineers dabei, sich zu stärkeren SREs zu entwickeln. Unsere Roadmap gestalten: Arbeite partnerschaftlich mit deinem Squad zusammen, um die Richtung der Plattform zu definieren. Was du mitbringst Wir suchen einen Hands-on, SaaS-orientierten Senior Site Reliability Engineer, der Skalierbarkeit und Zuverlässigkeit als erstklassiges Produktmerkmal behandelt. Must-Have Qualifikationen 5+ Jahre Hands-on-Erfahrung als Site Reliability Engineer (SRE), Platform Engineer, DevOps Engineer, Infrastructure Engineer, Cloud Engineer oder Backend Engineer mit starkem Infrastruktur-Fokus. Nachgewiesene Erfolgsbilanz beim Aufbau und Betrieb von hochverfügbaren High-Throughput-Systemen in der Produktion. Tiefe Erfahrung auf Produktionsniveau mit Kubernetes auf einem der gängigen Hyperscaler. Fundierte Erfahrung mit modernen Observability-Stacks (z. B. Prometheus, Mimir, VictoriaMetrics, Dash0, Loki, ELK) und eine klare Sichtweise auf SLIs, SLOs und Error Budgets. Solide Software-Development-Skills in Go (stark bevorzugt, da unser IaC auf Pulumi in Go läuft) oder Python. Hands-on-Erfahrung mit Infrastructure as Code (Pulumi, OpenTofu, Terraform) und GitOps (z. B. ArgoCD) + CI/CD Pipeline-Design. Nachgewiesene Fähigkeit, komplexe Infrastruktur-Initiativen vom Design bis zur Produktion zu leiten – einschließlich des Schreibens von RFCs und des Vorantreibens von Architektur-Entscheidungen in deinem Team. Erfahrung im Mentoring von Engineers und darin, das technische Niveau innerhalb eines Teams anzuheben. Souveräne End-to-End-Verantwortung bei kritischen Störungen und die Fähigkeit, daraus gewonnene Erkenntnisse in nachhaltige technische Verbesserungen zu überführen. Starke Kommunikationsfähigkeiten und verhandlungssicheres Englisch. Bereitschaft zur Teilnahme an Rufbereitschaften (On-Call), um die Zuverlässigkeit unserer Plattform zu gewährleisten.

Nice-to-Have

Qualifikationen Rollout von produktionsreifen API-Gateways mit Gateway API (z. B. Envoy Gateway). Betrieb von Multi-Cluster Service Meshes (z. B. Cilium, Linkerd, Istio). Deployment und Wartung von Kubernetes Operatoren (z. B. Strimzi, CNPG). Betrieb von hochverfügbarem PostgreSQL in der Produktion. What we offer you Work mode: We’re remote-first, giving you flexibility to work from home. At the same time, we deeply value the power of in-person collaboration. Depending on the role, you’ll join occasional team events, workshops, or meetings in our Berlin or Stuttgart offices - always with plenty of notice. The exact balance will be discussed during your interview. Work-Life-Balance: We don't want you to grow roots to your desk chair. That's why we cover the costs of your E-Gym-Wellpass membership and offer job bike leasing. Celebrating success: Expect highly motivated and committed people in a relaxed working atmosphere. Be part of something bigger: You actively shape Flip in your role. Along the way, you are an enabler of the rapid growth process of a young tech company and grow towards your goals, fun is guaranteed. Happy to be a Flipster: Stay tuned for regular team events and culture days that bring us together as Flipsters. Working abroad: At Flip you can also work abroad in the European Union. Let's talk about remote work in the interview. At Flip, everyone is welcome - no matter what gender you identify as or how old you are. Sexual identity, origin, religion, world view and disabilities do not influence your potential job at Flip. The most important thing is that YOU fit in! Apply To This Job

Apply

Senior Site Reliability Engineer (m/w/d)

Nice-to-Have

You might like

Product Engineer (Backend) (m/f/d)

Product Engineer (Frontend/Web) (m/f/d)

Growth Engineer

Senior AI Engineer

Technical Integration Specialist (APAC)

Technical Integration Specialist (EMEA)

Senior Partner Marketing Manager

Senior Product Manager: Demo Experience

Field Automation Engineer - French speaking

Senior BI Engineer

Apply Now: Wayfair Careers Remote From Home Job $20 An Hour

Experienced Data Entry Professional – Remote Opportunity at arenaflex

Experienced Live Chat Remote Representative – Enchanting Customer Experiences for Disney

Clinical Reviewer (LMFT or LCSW) - Remote in CA

Microsoft Solutions Architect - US Western States Resident ONLY (Remote) - ‘3’ – ‘6’ Month Contract

Experienced Part-Time Customer Service Representative – Weekend and Evening Shifts Available for Dynamic Call Center Environment

Experienced Data Entry Specialist – Remote Opportunity at arenaflex

Mortgage Banker

EverWell - Product Manager (Remote, New Zealand)

Experienced Full Stack Customer Service Representative – Virtual Customer Experience