-
Faixa salarial a combinar
-
São PauloA empresa aceita apenas candidaturas de São Paulo
-
Pessoa Jurídica
-
Participação nos Lucros ou Resultados
Descrição:
Procuramos um Site Reliability Engineer para atuar na confiabilidade, automação, resiliência e observabilidade dos ambientes de produção.
O profissional será responsável por projetar, implementar e evoluir arquiteturas escaláveis e altamente disponíveis, além de desenvolver automações robustas e práticas de engenharia de confiabilidade alinhadas ao modelo SRE (SLI/SLO/SLA, error budget, incident management).
Requisitos Técnicos:
- Forte experiência com sistemas Linux e Windows, troubleshooting de baixa e alta camada (processos, rede, storage, kernel).
- Domínio de Python (para automações, ferramentas internas, integrações e análise de dados).
- Experiência sólida com Ansible e Terraform (infraestrutura como código).
- Proficiência com Kubernetes (deployments, HPA, ingress, operators, troubleshooting avançado).
- Domínio de CI/CD (GitLab CI, GitHub Actions, Jenkins, Azure Devops ou similares).
- Experiência profunda em monitoramento e observabilidade (Prometheus/Grafana, ELK/EFK, Datadog, New Relic ou similares).
- Conhecimento avançado de redes (DNS, HTTP, SSL/TLS, balanceamento de carga, roteamento).
- Experiência com serviços distribuídos, microservices e arquiteturas baseadas em APIs.
- Forte atuação em gestão de incidentes, RCA, elaboração de post-mortems e mitigação preventiva.
Responsabilidades Técnicas:
- Projetar, implementar e manter pipelines de automação, infraestrutura e rotinas operacionais usando ferramentas como Ansible, Terraform e Python.
- Implementar e evoluir SLIs, SLOs e error budgets, garantindo métricas de confiabilidade para serviços críticos.
- Construir e manter sistemas de observabilidade (logs, métricas, tracing), definindo dashboards, alertas e estratégias de resposta a incidentes.
- Atuar no incident response, incluindo mitigação, post-mortems, análise de causa raiz e proposição de melhorias sistêmicas.
- Projetar e manter ambientes containerizados e orquestrados (Docker e Kubernetes), incluindo deployments, escalabilidade e health checks.
- Otimizar desempenho, disponibilidade e resiliência de serviços distribuídos.
- Automatizar processos de provisioning, configuração e deploy usando IaC e pipelines CI/CD.
- Trabalhar em parceria com Dev e Infra para criar soluções resilientes, padronizar ambientes e suportar releases.
- Aplicar práticas de Chaos Engineering para identificar pontos fracos e aumentar robustez.
- Contribuir para a cultura DevOps, padronizando processos, automatizando rotinas e reduzindo trabalho manual (Toil).
Diferenciais Técnicos:
- Experiência com Service Mesh (Istio, Linkerd).
- Conhecimento de mensageria (Kafka, RabbitMQ, SQS).
- Experiência com bancos SQL e NoSQL (PostgreSQL, Redis, MongoDB, Cassandra).
- Experiência com plataformas cloud (GCP e Azure).
- Background em segurança (DevSecOps, hardening, automação de compliance).
Benefícios PJ:
- Descanso remunerado: 12 dias;
- Dayoff – um dia no mês do aniversário;
- PLR: de 0,5 salário até 2 salários;
- Gympass.
Outros requisitos:
Perfil Desejado:
- Forte capacidade de autonomia, ownership e liderança técnica.
- Visão arquitetural e entendimento profundo de ambientes complexos e distribuídos.
- Excelência em diagnóstico e resolução de problemas sob pressão.
- Mentalidade de automação: elimina trabalho manual sistematicamente.
- Comunicação clara, objetiva e técnica para atuar com múltiplas áreas.
- Cultura de melhoria contínua, excelência operacional e engenharia de confiabilidade.
Empresa
Somos uma empresa comprometida com os resultados de nossos clientes e com a satisfação de nossos colaboradores.
Nos orgulhamos do fato de contarmos com clientes e colaboradores que confiam em nossos serviços desde a nossa fundação, comprovando que o investimento realizado na construção de relações sólidas e transparência nas atitudes valem a pena.