Melhores Práticas para o Processo de Gestão de Incidentes Segundo a SRE

Um incidente, definido como um evento que causa ou pode causar interrupção ou degradação de um serviço, impacta negativamente a experiência dos clientes e as operações da organização. O processo de gestão de incidentes lida com esses eventos desde a detecção até a resolução, visando restaurar o serviço rapidamente e minimizar impactos negativos. Este artigo explora as melhores práticas de gestão de incidentes, abordando questões estratégicas e a perspectiva de times de operação e engenharia de software.

Importância da Gestão de Incidentes

Existem diversos motivos que tornam a gestão de incidentes fundamental em uma empresa. Primeiramente, incidentes são inevitáveis em ambientes complexos e dinâmicos, caracterizados por muitas dependências e incertezas. Além disso, podem ter consequências sérias, incluindo perda de receita e reputação, insatisfação dos clientes, multas e riscos à segurança. Por fim, incidentes bem gerenciados e analisados podem se tornar oportunidades de aprendizado, melhoria e inovação.

De acordo com o Gartner, a gestão de incidentes é uma competência do ITSM (Gerenciamento de Serviços de TI), importante para o sucesso das organizações digitais. O ITSM, definido como um conjunto de processos e funções para planejar, entregar, operar e controlar serviços de TI, influencia diretamente a percepção dos clientes sobre a qualidade desses serviços. Uma gestão eficaz pode aumentar a satisfação dos clientes, a produtividade dos funcionários, a eficiência operacional e a vantagem competitiva.

Melhores Práticas para Gestão de Incidentes

As melhores práticas de gestão de incidentes variam conforme o contexto e a cultura da organização, mas existem princípios e recomendações gerais aplicáveis na maioria dos casos:

  • Utilizar os canais adequados para relatar incidentes, como portais de autoatendimento, chatbots ou telefones de emergência.
  • Classificar, categorizar e priorizar incidentes conforme gravidade e urgência, usando critérios claros e consistentes.
  • Economizar tempo com a automação, adotando ferramentas para detecção, registro, atribuição de incidentes e envio de notificações.
  • Manter uma comunicação constante e eficaz, informando clientes, stakeholders, proprietários de serviços e equipes sobre o status, impacto e resolução dos incidentes.
  • Implementar melhorias contínuas, aprendendo com as interrupções para aprimorar o serviço e o processo.

Técnicas e ferramentas úteis incluem:

  • Adotar abordagens proativas e preditivas, como a engenharia do caos, para evitar incidentes.
  • Integrar ferramentas de gerenciamento de incidentes com sistemas de monitoramento, plataformas de comunicação, ferramentas de colaboração e análise.
  • Seguir uma metodologia ágil no gerenciamento de incidentes, com um ciclo de vida abrangendo planejamento, preparação, resposta, recuperação e revisão.
  • Implementar a disciplina SRE – Site Reliability Engineering – focada na melhoria contínua da confiabilidade, disponibilidade e resiliência dos serviços, utilizando indicadores como SLOs, SLIs e SLAs.

Contribuição da SRE na Gestão de Incidentes.

A SRE, surgida no Google, é uma disciplina que aplica princípios de engenharia de software no design, construção e operação de sistemas altamente confiáveis. Seu objetivo é garantir que os serviços atendam às expectativas dos clientes e stakeholders, sem comprometer a inovação e a agilidade na entrega.

Na gestão de incidentes, a SRE oferece uma abordagem sistemática, estruturada e orientada a dados, utilizando ferramentas, processos e uma cultura apropriada. Conceitos e práticas da SRE úteis na gestão de incidentes incluem:

  • O Incident Management at Google – IMAG – é um processo para gerenciar incidentes em larga escala, definindo papéis, responsabilidades, fases e ações.
  • A Postmortem Culture, que incentiva o aprendizado e a melhoria a partir dos incidentes, sem culpar indivíduos.
  • O Wheel of Misfortune, uma técnica para treinar SREs em cenários de falhas, testando habilidades, conhecimento e criatividade.
  • Um processo eficaz de gestão de incidentes oferece várias vantagens, como aumento da confiabilidade, satisfação dos clientes, produtividade de funcionários e vantagem competitiva.

Gestão de Incidentes: ITIL vs. SRE

Precisamos antes de tudo definir o que é o ITIL e o SRE. ITIL é um conjunto de boas práticas para o gerenciamento de serviços de TI, que visa alinhar os serviços de TI com as necessidades dos negócios e abrange vários processos, como a gestão de incidentes, a gestão de problemas, a gestão de mudanças, a gestão de configuração, a gestão de capacidade, etc. Considerada uma metodologia tradicional, que se baseia em processos bem definidos, documentados e padronizados, que seguem um ciclo de vida que envolve as fases de estratégia, desenho, transição, operação e melhoria contínua.

SRE, como já vimos, é uma disciplina que aplica princípios e práticas de engenharia de software para projetar, construir e operar sistemas de alta confiabilidade. É uma metodologia moderna, que se baseia em processos ágeis, iterativos e adaptativos, que seguem um ciclo de vida que envolve as fases de planejamento, preparação, resposta, recuperação e revisão.

A gestão de incidentes segundo ITIL e segundo a SRE tem algumas semelhanças e diferenças. As semelhanças são:

  • Ambas visam restaurar o serviço o mais rápido possível e minimizar o impacto negativo dos incidentes.
  • Ambas envolvem a classificação, a categorização e a priorização dos incidentes, com base na gravidade e na urgência.
  • Ambas requerem a comunicação efetiva com os clientes, as partes interessadas, os proprietários de serviços e os membros da equipe, sobre o status, o impacto e a resolução dos incidentes.
  • Ambas buscam aprender com as interrupções e aplicar as lições para melhorar o serviço e refinar o processo.

As diferenças são:

  • A gestão de incidentes segundo ITIL é mais prescritiva, formal e burocrática, seguindo um fluxo de trabalho linear e sequencial, que envolve várias etapas, como o registro, a atribuição, a investigação, a resolução, o fechamento, etc. A gestão de incidentes segundo ITIL também depende de ferramentas e sistemas que suportem o processo, como o CMDB (Configuration Management Database), o ITSM (Information Technology Service Management), o ITIL Service Desk, etc.
  • A gestão de incidentes segundo a SRE é mais flexível, dinâmica e colaborativa, seguindo um fluxo de trabalho paralelo e concorrente, que envolve várias ações, como a detecção, a triagem, a mitigação, a resolução, a análise, etc. A gestão de incidentes segundo a SRE também depende de ferramentas e sistemas que automatizem o processo, como o IMAG, o Postmortem Culture, o Wheel of Misfortune, etc.

Quais as Vantagens ao Adotar a Gestão de Incidentes do Jeito Certo?

Criar um processo de gestão de incidentes eficaz traz várias vantagens para a organização, tais como:

  • Aumentar a confiabilidade, a disponibilidade e a resiliência dos serviços, reduzindo a frequência, a duração e o impacto dos incidentes.
  • Aumentar a satisfação, a fidelidade e a confiança dos clientes, mantendo-os informados, atendidos e satisfeitos com os serviços.
  • Aumentar a produtividade, a eficiência e a qualidade dos funcionários, reduzindo o estresse, o retrabalho e os erros causados pelos incidentes.
  • Aumentar a vantagem competitiva, a inovação e o crescimento da organização, aproveitando as oportunidades de aprendizado, melhoria e diferenciação geradas pelos incidentes.

Como Estruturar um War Room do Jeito Certo?

Um war room é um espaço físico ou virtual onde as pessoas envolvidas na gestão de um incidente se reúnem para coordenar, comunicar e colaborar na resolução do incidente. Um war room é uma ferramenta essencial para gerenciar incidentes complexos, críticos e urgentes, que exigem uma resposta rápida, efetiva e integrada.

Para estruturar um war room do jeito certo, é preciso seguir alguns passos, como:

  • Definir o objetivo, o escopo e a duração do war room, de acordo com a natureza, a gravidade e a urgência do incidente.
  • Definir os papéis e as responsabilidades das pessoas que participarão do war room, de acordo com as competências, as habilidades e as funções de cada uma. Os papéis podem ser distribuídos da seguinte forma:
    • Coordenador: Responsável por entender o problema, fazer as perguntas corretas e manter o time focado em isolar e resolver a questão.
    • Intermediador: Encarregado de agrupar informações e liberar atualizações, gerenciar a comunicação via status page, elaborar o postmortem e assegurar que medidas corretivas sejam comunicadas e implementadas.
    • Customer Experience: Focado em identificar o impacto externo, como o aumento de contatos no SAC, e desenvolver estratégias para mitigar impactos jurídicos e de experiência do cliente.
    • Integrantes da Squad: Especialistas que conhecem a solução profundamente e são capazes de identificar rapidamente pontos de falha para isolar e resolver o problema.
  • Se necessário, pessoas de infraestrutura, pessoas de segurança e pessoas de outros times devem ser adicionadas para assegurar que todas as medidas estejam sendo tomadas.
  • Escolher as ferramentas e os sistemas que serão usados no war room, como as ferramentas de monitoramento, de comunicação, de colaboração, de análise, etc. As ferramentas devem ser integradas, confiáveis, acessíveis e fáceis de usar.
  • Estabelecer um processo no war room, seguindo as recomendações que você fez, como:
    • Iniciar o war room com uma breve introdução do coordenador, explicando o objetivo, o escopo, a duração, os papéis e as regras do war room.
    • Manter o war room focado no problema, evitando distrações, interrupções, discussões irrelevantes ou conflitos pessoais.
    • Manter o war room atualizado, compartilhando informações, evidências, hipóteses, ações, resultados, etc. de forma clara, concisa e frequente.
    • Manter o war room alinhado, validando as informações, as decisões, os planos, os prazos, etc. com todos os envolvidos, interna e externamente.
    • Encerrar o war room com uma breve conclusão do intermediador, resumindo o que foi feito, o que foi resolvido, o que foi aprendido e o que será feito a seguir.

Como as Métricas MTTx Podem Ajudar o Executivo a Tomar Melhores Decisões?

As métricas MTTx são um conjunto de métricas que medem o tempo que leva para gerenciar um incidente, desde a sua detecção até a sua solução. As métricas MTTx são:

  • MTTD (Mean Time to Detect), que é o tempo médio que leva para detectar um incidente, desde que ele ocorre até que ele é identificado.
  • MTTR (Mean Time to Recovery), que é o tempo médio que leva para um time se recuperar de um incidente, desde que ele é detectado até que ele é resolvido.
  • MTBF (Mean Time Between Failures), que é o tempo médio entre as ocorrências de dois incidentes consecutivos.

As métricas MTTx podem ajudar o executivo a tomar melhores decisões, pois elas permitem:

  • Avaliar o desempenho e a eficácia da gestão de incidentes, comparando os valores reais com os valores esperados ou acordados, e identificando as lacunas, as tendências, as anomalias, etc.
  • Diagnosticar e solucionar os problemas e as causas raízes da gestão de incidentes, analisando os fatores que influenciam as métricas MTTx, como os recursos, os processos, as ferramentas, as pessoas, etc.
  • Melhorar e otimizar a gestão de incidentes, definindo e implementando ações corretivas e preventivas, baseadas nas métricas MTTx, como a capacitação, a automação, a simplificação, a padronização, etc.
  • Comunicar e demonstrar o valor e o impacto da gestão de incidentes, usando as métricas MTTx como indicadores de qualidade, de confiabilidade e de satisfação dos serviços, e como argumentos de negociação, de justificativa, de reconhecimento, etc.

Conclusão

A gestão de incidentes em TI é um processo chave para manter a qualidade e a satisfação dos usuários. Esse processo lida com os problemas desde o momento em que são detectados até a solução deles, usando as melhores práticas e ferramentas para corrigi-los rápido e reduzir problemas. Parte importante da gestão de incidentes é adotar uma cultura de SRE (Site Reliability Engineering), que usa técnicas de engenharia de software para criar e manter sistemas confiáveis. 

É interessante comparar a gestão de incidentes seguindo a metodologia ITIL, mais tradicional, com a abordagem SRE, mais moderna. Ter um bom processo de gestão de incidentes traz muitos benefícios, como melhor confiabilidade, satisfação do usuário, produtividade e vantagem no mercado.

A organização de um war room eficiente também ajuda, definindo claramente objetivos, escopo, duração, papéis, responsabilidades, ferramentas e sistemas. 

Por fim, o monitoramento e aperfeiçoamento da gestão de incidentes podem ser feitos com as métricas MTTx, que avaliam o tempo para resolver um problema. Essas métricas são úteis para os gestores tomarem decisões mais acertadas.

Compartilhe este insight:

Comentários

Participe deixando seu comentário sobre este artigo a seguir:

Subscribe
Notify of
guest
0 Comentários
Inline Feedbacks
View all comments

AUTOR

Tiago Tartari
Especialista em SRE, monitoramento, arquitetura de software, processos de due diligence em aquisições e fusões e Microsoft MVP

INSIGHTS EXIMIACO

Engenharia de Software

Adoção de práticas, políticas e ferramentas para o desenvolvimento de software.

NOVOS HORIZONTES PARA O SEU NEGÓCIO

Nosso time está preparado para superar junto com você grandes desafios tecnológicos.

Entre em contato e vamos juntos utilizar a tecnologia do jeito certo para gerar mais resultados.

Insights EximiaCo

Confira os conteúdos de negócios e tecnologia desenvolvidos pelos nossos consultores:

Engenharia de Software

O seu time de engenharia atua de forma colaborativa para atender os objetivos do negócio?

Arquiteto de Software com experiência executiva em Tecnologia
Engenharia de Software

Três vantagens reais de utilizar orquestradores BPM para serviços

Arquiteto de software e solução com larga experiência corporativa
Engenharia de Software

Grandes empresas precisam executar engenharia de software do jeito certo

Tech Trusted Advisor, Fundador e CEO da EximiaCo
EximiaCo 2024 - Todos os direitos reservados
0
Queremos saber a sua opinião, deixe seu comentáriox
()
x

Muito obrigado!

Deu tudo certo com seu envio!
Logo entraremos em contato
WEBINAR EXCLUSIVO
28/02 às 19:30

TENDÊNCIAS
EM TECNOLOGIA

2024

Quais são suas estratégias em tecnologia para este ano?

Neste webinar, Elemar Júnior e o time de consultores da EximiaCo irão apresentar as principais tendências em tecnologia para 2024 e como sua empresa pode atuar para aproveitar as melhores oportunidades.

Melhores Práticas para o Processo de Gestão de Incidentes Segundo a SRE

Para se candidatar nesta turma aberta, preencha o formulário a seguir:

Melhores Práticas para o Processo de Gestão de Incidentes Segundo a SRE

Para se candidatar nesta turma aberta, preencha o formulário a seguir:

Condição especial de pré-venda: R$ 14.000,00 - contratando a mentoria até até 31/01/2023 e R$ 15.000,00 - contratando a mentoria a partir de 01/02/2023, em até 12x com taxas.

Tenho interesse nessa capacitação

Para solicitar mais informações sobre essa capacitação para a sua empresa, preencha o formulário a seguir:

Tenho interesse em conversar

Se você está querendo gerar resultados através da tecnologia, preencha este formulário que um de nossos consultores entrará em contato com você:

O seu insight foi excluído com sucesso!

O seu insight foi excluído e não está mais disponível.

O seu insight foi salvo com sucesso!

Ele está na fila de espera, aguardando ser revisado para ter sua publicação programada.

Tenho interesse em conversar

Se você está querendo gerar resultados através da tecnologia, preencha este formulário que um de nossos consultores entrará em contato com você:

Tenho interesse nessa solução

Se você está procurando este tipo de solução para o seu negócio, preencha este formulário que um de nossos consultores entrará em contato com você:

Tenho interesse neste serviço

Se você está procurando este tipo de solução para o seu negócio, preencha este formulário que um de nossos consultores entrará em contato com você:

× Precisa de ajuda?