Por que “SRE” é o jeito certo de melhorar a confiabilidade de um sistema?

Elemar Júnior

Sistemas que não funcionam, geram prejuízos para o negócio. Entretanto, alguns tipos de sistema são mais críticos do que outros. No e-commerce, por exemplo, a falta de confiabilidade gera prejuízos diretos, sentidos rapidamente, muito além do setor de TI.

Não basta que sejamos capazes de desenvolver sistemas inteligentes e sofisticados. É necessário que eles se comportem, em produção, consistentemente, de acordo com as expectativas. Antes de tudo, é necessário que estejam disponíveis para que cumpram seu propósito. Se, por um lado, velocity é importante – ou seja, os times de desenvolvimento tenham condições de entregar mais features em menos tempo – por outro, isso tem que acontecer sem que instabilidades em demasia sejam causadas.

Veja também

Um das alternativas mais eficientes para mitigar o conflito entre velocity e estabilidade é, sem dúvidas, a prática da SRE (método de trabalho desenvolvido na Google). Temos obtido ótimos resultados com sua adoção!

No SRE, tudo começa com um acordo sobre o que significa disponibilidade. Este “acordo” é fundamental por “incluir na conversa” pessoas que estão fora da área de TI. Em seguida, a partir do estabelecimento do “acordo” do que disponibilidade significa, trabalha-se para o estabelecimento de SLOs – Objetivos de Nível de Serviço – que expressam quanto de disponibilidade é minimamente aceitável para cada parte do sistema.

Não se gerencia o que não se mede, não se mede o que não se define, não se define o que não se entende, e não há sucesso no que não se gerencia – Deming

A rotina da SRE é, em boa parte, estabelecer e acompanhar medições que demonstram o atingimento, ou não, dos SLOs. Como esses objetivos estão definidos em termos de negócio, toda empresa tem, além do interesse, condições de acompanhar. No “fim do dia”, se um SLO não está sendo atendido, algo está errado e carece de investigação. 

Em um e-commerce, pouco adianta o site estar “no ar”, se estiver lento. Entretanto, a lentidão para mostrar detalhes de um produto tem consequências diferentes para a venda do que aquela percebida no processamento da cobrança, por exemplo.

Em termos práticos, temos constado que o atendimento dos SLOs tem relação direta com o nível de confiança depositado pelo negócio na área de tecnologia.. Além disso, os SLOs são excelentes instrumentos para garantir o alinhamento, tão fundamental para a autonomia que todos desejamos.

O estabelecimento dos SLOs, combinados com o acordo sobre o que disponibilidade significa, autoriza a definição de um conjunto de indicadores numéricos fáceis de acompanhar. Geralmente, esses indicadores são construídos a partir da agregação de elementos como response time, throughput e taxas de erro. Esses indicadores, na prática do SRE, são conhecidos como SLIs – Indicadores de nível de serviço.

Os SLIs são “sinais de trânsito” que indicam, em termos mais técnicos, se os SLOs estão sendo atendidos e há sinal verde para fazer experimentações, demandam atenção ou “parada geral” para corrigir algo. Se todos os SLIs estiverem bem e, mesmo assim, o negócio entender que os SLOs não estão sendo atingidos, não há alinhamento sobre o que disponibilidade significa.

Há tempos, estamos trabalhando para criar dashboards que tornem nossas SLIs, agrupadas por SLOs, bem visuais e fáceis de acompanhar quase em tempo real. Temos usado, inclusive, códigos de cores (amarelo, azul e vermelho) para termos feedbacks mais rápidos se tudo está bem, ou não.

SRE não tem feito com que não experimentemos falhas. Mas, sem dúvidas, tem feito com que sejamos muito mais eficientes em minimizar os impactos sentidos pelo negócio. Ainda sentimos “dores”, mas elas estão cada vez menos sendo percebidas fora do setor de TI.

Em resumo

O problema
Sistemas que não funcionam, geram prejuízos para o negócio. Algumas partes dos sistemas tem mais impacto do que outras. As “dores” causadas por instabilidades são sentidas muito além do setor de TI e, frequentemente, acabam abalando as relações dentro e fora da empresa.
O insight
A prática da SRE – método de trabalho da Google – promove alinhamento entre as diversas partes do negócio sobre o que é importante. Ela autoriza o estabelecimento de indicadores para monitorar o que tem mais estima para o negócio e permite que ações corretivas sejam priorizadas e adotadas em menos tempo.
Os benefícios
A prática do SRE promove alinhamento sobre o que é importante e permite que os times atuem de forma mais eficiente, reduzindo os impactos de problemas para fora dos setores de TI. Isso aumenta os níveis de confiança, propiciando autonomia e mais eficiência.

Compartilhe este insight:

Comentários

Participe deixando seu comentário sobre este artigo a seguir:

Subscribe
Notify of
guest
3 Comentários
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Patrick
Patrick
3 anos atrás

Certo, e o que é significa o acrônimo SRE e os demais?

Leandro
Leandro
3 anos atrás

Quer dizer Site Reliability Engineering. É a disciplina de engenharia de confiabilidade desenvolvida pela Google que tem por objetivo proteger, prover e evoluir o software e os sistemas por trás dos seus serviços públicos. Mais detalhes você pode encontrar na página https://landing.google.com/sre/

Tiago Tartari
Tiago Tartari
3 anos atrás

Patrick, tudo bem?
Perdoe-me por demorar um pouco na resposta.

SLI: Service Level Indicator
SLO: Service Level Objectives
SLA: Service Level Agreements

AUTOR

Elemar Júnior
Fundador e CEO da EximiaCo atua como tech trusted advisor ajudando empresas e profissionais a gerar mais resultados através da tecnologia.

NOVOS HORIZONTES PARA O SEU NEGÓCIO

Nosso time está preparado para superar junto com você grandes desafios tecnológicos.

Entre em contato e vamos juntos utilizar a tecnologia do jeito certo para gerar mais resultados.

Insights EximiaCo

Confira os conteúdos de negócios e tecnologia desenvolvidos pelos nossos consultores:

Arquitetura de Dados

Insights de um DBA na análise de um plano de execução

Especialista em performance de Bancos de Dados de larga escala
Arquitetura de Software

Estratégias para modernização do legado

Desenvolvedor .NET/NodeJs e especialista em Kafka com experiência em startups e grandes empresas
Infraestrutura e Nuvem

Migração para a nuvem, mais do que mudança tecnológica, implica em mudança da cultura organizacional

Engenheiro de nuvem, arquiteto de software e especialista em Containers e Devops

Acesse nossos canais

Simplificamos, potencializamos e aceleramos resultados usando a tecnologia do jeito certo

EximiaCo 2022 – Todos os direitos reservados

3
0
Queremos saber a sua opinião, deixe seu comentáriox
()
x

Por que “SRE” é o jeito certo de melhorar a confiabilidade de um sistema?

Para se candidatar nesta turma aberta, preencha o formulário a seguir:

Condição especial de pré-venda: R$ 14.000,00 - contratando a mentoria até até 31/01/2023 e R$ 15.000,00 - contratando a mentoria a partir de 01/02/2023, em até 12x com taxas.

Tenho interesse nessa capacitação

Para solicitar mais informações sobre essa capacitação para a sua empresa, preencha o formulário a seguir:

Tenho interesse em conversar

Se você está querendo gerar resultados através da tecnologia, preencha este formulário que um de nossos consultores entrará em contato com você:

O seu insight foi excluído com sucesso!

O seu insight foi excluído e não está mais disponível.

O seu insight foi salvo com sucesso!

Ele está na fila de espera, aguardando ser revisado para ter sua publicação programada.

Tenho interesse em conversar

Se você está querendo gerar resultados através da tecnologia, preencha este formulário que um de nossos consultores entrará em contato com você:

Tenho interesse nessa solução

Se você está procurando este tipo de solução para o seu negócio, preencha este formulário que um de nossos consultores entrará em contato com você:

Tenho interesse neste serviço

Se você está procurando este tipo de solução para o seu negócio, preencha este formulário que um de nossos consultores entrará em contato com você:

× Precisa de ajuda?