Faixa salarial a combinar
São Paulo
Pessoa Jurídica

Benefícios
Descrição
Empresa

Participação nos Lucros ou Resultados

Descrição:

Procuramos um Site Reliability Engineer para atuar na confiabilidade, automação, resiliência e observabilidade dos ambientes de produção.

O profissional será responsável por projetar, implementar e evoluir arquiteturas escaláveis e altamente disponíveis, além de desenvolver automações robustas e práticas de engenharia de confiabilidade alinhadas ao modelo SRE (SLI/SLO/SLA, error budget, incident management).

Requisitos Técnicos:

Forte experiência com sistemas Linux e Windows, troubleshooting de baixa e alta camada (processos, rede, storage, kernel).
Domínio de Python (para automações, ferramentas internas, integrações e análise de dados).
Experiência sólida com Ansible e Terraform (infraestrutura como código).
Proficiência com Kubernetes (deployments, HPA, ingress, operators, troubleshooting avançado).
Domínio de CI/CD (GitLab CI, GitHub Actions, Jenkins, Azure Devops ou similares).
Experiência profunda em monitoramento e observabilidade (Prometheus/Grafana, ELK/EFK, Datadog, New Relic ou similares).
Conhecimento avançado de redes (DNS, HTTP, SSL/TLS, balanceamento de carga, roteamento).
Experiência com serviços distribuídos, microservices e arquiteturas baseadas em APIs.
Forte atuação em gestão de incidentes, RCA, elaboração de post-mortems e mitigação preventiva.

Responsabilidades Técnicas:

Projetar, implementar e manter pipelines de automação, infraestrutura e rotinas operacionais usando ferramentas como Ansible, Terraform e Python.
Implementar e evoluir SLIs, SLOs e error budgets, garantindo métricas de confiabilidade para serviços críticos.
Construir e manter sistemas de observabilidade (logs, métricas, tracing), definindo dashboards, alertas e estratégias de resposta a incidentes.
Atuar no incident response, incluindo mitigação, post-mortems, análise de causa raiz e proposição de melhorias sistêmicas.
Projetar e manter ambientes containerizados e orquestrados (Docker e Kubernetes), incluindo deployments, escalabilidade e health checks.
Otimizar desempenho, disponibilidade e resiliência de serviços distribuídos.
Automatizar processos de provisioning, configuração e deploy usando IaC e pipelines CI/CD.
Trabalhar em parceria com Dev e Infra para criar soluções resilientes, padronizar ambientes e suportar releases.
Aplicar práticas de Chaos Engineering para identificar pontos fracos e aumentar robustez.
Contribuir para a cultura DevOps, padronizando processos, automatizando rotinas e reduzindo trabalho manual (Toil).

Diferenciais Técnicos:

Experiência com Service Mesh (Istio, Linkerd).
Conhecimento de mensageria (Kafka, RabbitMQ, SQS).
Experiência com bancos SQL e NoSQL (PostgreSQL, Redis, MongoDB, Cassandra).
Experiência com plataformas cloud (GCP e Azure).
Background em segurança (DevSecOps, hardening, automação de compliance).

Benefícios PJ:

Descanso remunerado: 12 dias;
Dayoff – um dia no mês do aniversário;
PLR: de 0,5 salário até 2 salários;
Gympass.

Outros requisitos:

Perfil Desejado:

Forte capacidade de autonomia, ownership e liderança técnica.
Visão arquitetural e entendimento profundo de ambientes complexos e distribuídos.
Excelência em diagnóstico e resolução de problemas sob pressão.
Mentalidade de automação: elimina trabalho manual sistematicamente.
Comunicação clara, objetiva e técnica para atuar com múltiplas áreas.
Cultura de melhoria contínua, excelência operacional e engenharia de confiabilidade.

Empresa

Somos uma empresa comprometida com os resultados de nossos clientes e com a satisfação de nossos colaboradores.

Nos orgulhamos do fato de contarmos com clientes e colaboradores que confiam em nossos serviços desde a nossa fundação, comprovando que o investimento realizado na construção de relações sólidas e transparência nas atitudes valem a pena.

11061 - Sre – Site Reliability Engineer

Talent Group