Um incidente, definido como um evento que causa ou pode causar interrupção ou degradação de um serviço, impacta negativamente a experiência dos clientes e as operações da organização. O processo de gestão de incidentes lida com esses eventos desde a detecção até a resolução, visando restaurar o serviço rapidamente e minimizar impactos negativos. Este artigo explora as melhores práticas de gestão de incidentes, abordando questões estratégicas e a perspectiva de times de operação e engenharia de software.
Importância da Gestão de Incidentes
Existem diversos motivos que tornam a gestão de incidentes fundamental em uma empresa. Primeiramente, incidentes são inevitáveis em ambientes complexos e dinâmicos, caracterizados por muitas dependências e incertezas. Além disso, podem ter consequências sérias, incluindo perda de receita e reputação, insatisfação dos clientes, multas e riscos à segurança. Por fim, incidentes bem gerenciados e analisados podem se tornar oportunidades de aprendizado, melhoria e inovação.
De acordo com o Gartner, a gestão de incidentes é uma competência do ITSM (Gerenciamento de Serviços de TI), importante para o sucesso das organizações digitais. O ITSM, definido como um conjunto de processos e funções para planejar, entregar, operar e controlar serviços de TI, influencia diretamente a percepção dos clientes sobre a qualidade desses serviços. Uma gestão eficaz pode aumentar a satisfação dos clientes, a produtividade dos funcionários, a eficiência operacional e a vantagem competitiva.
Melhores Práticas para Gestão de Incidentes
As melhores práticas de gestão de incidentes variam conforme o contexto e a cultura da organização, mas existem princípios e recomendações gerais aplicáveis na maioria dos casos:
- Utilizar os canais adequados para relatar incidentes, como portais de autoatendimento, chatbots ou telefones de emergência.
- Classificar, categorizar e priorizar incidentes conforme gravidade e urgência, usando critérios claros e consistentes.
- Economizar tempo com a automação, adotando ferramentas para detecção, registro, atribuição de incidentes e envio de notificações.
- Manter uma comunicação constante e eficaz, informando clientes, stakeholders, proprietários de serviços e equipes sobre o status, impacto e resolução dos incidentes.
- Implementar melhorias contínuas, aprendendo com as interrupções para aprimorar o serviço e o processo.
Técnicas e ferramentas úteis incluem:
- Adotar abordagens proativas e preditivas, como a engenharia do caos, para evitar incidentes.
- Integrar ferramentas de gerenciamento de incidentes com sistemas de monitoramento, plataformas de comunicação, ferramentas de colaboração e análise.
- Seguir uma metodologia ágil no gerenciamento de incidentes, com um ciclo de vida abrangendo planejamento, preparação, resposta, recuperação e revisão.
- Implementar a disciplina SRE – Site Reliability Engineering – focada na melhoria contínua da confiabilidade, disponibilidade e resiliência dos serviços, utilizando indicadores como SLOs, SLIs e SLAs.
Contribuição da SRE na Gestão de Incidentes.
A SRE, surgida no Google, é uma disciplina que aplica princípios de engenharia de software no design, construção e operação de sistemas altamente confiáveis. Seu objetivo é garantir que os serviços atendam às expectativas dos clientes e stakeholders, sem comprometer a inovação e a agilidade na entrega.
Na gestão de incidentes, a SRE oferece uma abordagem sistemática, estruturada e orientada a dados, utilizando ferramentas, processos e uma cultura apropriada. Conceitos e práticas da SRE úteis na gestão de incidentes incluem:
- O Incident Management at Google – IMAG – é um processo para gerenciar incidentes em larga escala, definindo papéis, responsabilidades, fases e ações.
- A Postmortem Culture, que incentiva o aprendizado e a melhoria a partir dos incidentes, sem culpar indivíduos.
- O Wheel of Misfortune, uma técnica para treinar SREs em cenários de falhas, testando habilidades, conhecimento e criatividade.
- Um processo eficaz de gestão de incidentes oferece várias vantagens, como aumento da confiabilidade, satisfação dos clientes, produtividade de funcionários e vantagem competitiva.
Gestão de Incidentes: ITIL vs. SRE
Precisamos antes de tudo definir o que é o ITIL e o SRE. ITIL é um conjunto de boas práticas para o gerenciamento de serviços de TI, que visa alinhar os serviços de TI com as necessidades dos negócios e abrange vários processos, como a gestão de incidentes, a gestão de problemas, a gestão de mudanças, a gestão de configuração, a gestão de capacidade, etc. Considerada uma metodologia tradicional, que se baseia em processos bem definidos, documentados e padronizados, que seguem um ciclo de vida que envolve as fases de estratégia, desenho, transição, operação e melhoria contínua.
SRE, como já vimos, é uma disciplina que aplica princípios e práticas de engenharia de software para projetar, construir e operar sistemas de alta confiabilidade. É uma metodologia moderna, que se baseia em processos ágeis, iterativos e adaptativos, que seguem um ciclo de vida que envolve as fases de planejamento, preparação, resposta, recuperação e revisão.
A gestão de incidentes segundo ITIL e segundo a SRE tem algumas semelhanças e diferenças. As semelhanças são:
- Ambas visam restaurar o serviço o mais rápido possível e minimizar o impacto negativo dos incidentes.
- Ambas envolvem a classificação, a categorização e a priorização dos incidentes, com base na gravidade e na urgência.
- Ambas requerem a comunicação efetiva com os clientes, as partes interessadas, os proprietários de serviços e os membros da equipe, sobre o status, o impacto e a resolução dos incidentes.
- Ambas buscam aprender com as interrupções e aplicar as lições para melhorar o serviço e refinar o processo.
As diferenças são:
- A gestão de incidentes segundo ITIL é mais prescritiva, formal e burocrática, seguindo um fluxo de trabalho linear e sequencial, que envolve várias etapas, como o registro, a atribuição, a investigação, a resolução, o fechamento, etc. A gestão de incidentes segundo ITIL também depende de ferramentas e sistemas que suportem o processo, como o CMDB (Configuration Management Database), o ITSM (Information Technology Service Management), o ITIL Service Desk, etc.
- A gestão de incidentes segundo a SRE é mais flexível, dinâmica e colaborativa, seguindo um fluxo de trabalho paralelo e concorrente, que envolve várias ações, como a detecção, a triagem, a mitigação, a resolução, a análise, etc. A gestão de incidentes segundo a SRE também depende de ferramentas e sistemas que automatizem o processo, como o IMAG, o Postmortem Culture, o Wheel of Misfortune, etc.
Quais as Vantagens ao Adotar a Gestão de Incidentes do Jeito Certo?
Criar um processo de gestão de incidentes eficaz traz várias vantagens para a organização, tais como:
- Aumentar a confiabilidade, a disponibilidade e a resiliência dos serviços, reduzindo a frequência, a duração e o impacto dos incidentes.
- Aumentar a satisfação, a fidelidade e a confiança dos clientes, mantendo-os informados, atendidos e satisfeitos com os serviços.
- Aumentar a produtividade, a eficiência e a qualidade dos funcionários, reduzindo o estresse, o retrabalho e os erros causados pelos incidentes.
- Aumentar a vantagem competitiva, a inovação e o crescimento da organização, aproveitando as oportunidades de aprendizado, melhoria e diferenciação geradas pelos incidentes.
Como Estruturar um War Room do Jeito Certo?
Um war room é um espaço físico ou virtual onde as pessoas envolvidas na gestão de um incidente se reúnem para coordenar, comunicar e colaborar na resolução do incidente. Um war room é uma ferramenta essencial para gerenciar incidentes complexos, críticos e urgentes, que exigem uma resposta rápida, efetiva e integrada.
Para estruturar um war room do jeito certo, é preciso seguir alguns passos, como:
- Definir o objetivo, o escopo e a duração do war room, de acordo com a natureza, a gravidade e a urgência do incidente.
- Definir os papéis e as responsabilidades das pessoas que participarão do war room, de acordo com as competências, as habilidades e as funções de cada uma. Os papéis podem ser distribuídos da seguinte forma:
- Coordenador: Responsável por entender o problema, fazer as perguntas corretas e manter o time focado em isolar e resolver a questão.
- Intermediador: Encarregado de agrupar informações e liberar atualizações, gerenciar a comunicação via status page, elaborar o postmortem e assegurar que medidas corretivas sejam comunicadas e implementadas.
- Customer Experience: Focado em identificar o impacto externo, como o aumento de contatos no SAC, e desenvolver estratégias para mitigar impactos jurídicos e de experiência do cliente.
- Integrantes da Squad: Especialistas que conhecem a solução profundamente e são capazes de identificar rapidamente pontos de falha para isolar e resolver o problema.
- Se necessário, pessoas de infraestrutura, pessoas de segurança e pessoas de outros times devem ser adicionadas para assegurar que todas as medidas estejam sendo tomadas.
- Escolher as ferramentas e os sistemas que serão usados no war room, como as ferramentas de monitoramento, de comunicação, de colaboração, de análise, etc. As ferramentas devem ser integradas, confiáveis, acessíveis e fáceis de usar.
- Estabelecer um processo no war room, seguindo as recomendações que você fez, como:
- Iniciar o war room com uma breve introdução do coordenador, explicando o objetivo, o escopo, a duração, os papéis e as regras do war room.
- Manter o war room focado no problema, evitando distrações, interrupções, discussões irrelevantes ou conflitos pessoais.
- Manter o war room atualizado, compartilhando informações, evidências, hipóteses, ações, resultados, etc. de forma clara, concisa e frequente.
- Manter o war room alinhado, validando as informações, as decisões, os planos, os prazos, etc. com todos os envolvidos, interna e externamente.
- Encerrar o war room com uma breve conclusão do intermediador, resumindo o que foi feito, o que foi resolvido, o que foi aprendido e o que será feito a seguir.
Como as Métricas MTTx Podem Ajudar o Executivo a Tomar Melhores Decisões?
As métricas MTTx são um conjunto de métricas que medem o tempo que leva para gerenciar um incidente, desde a sua detecção até a sua solução. As métricas MTTx são:
- MTTD (Mean Time to Detect), que é o tempo médio que leva para detectar um incidente, desde que ele ocorre até que ele é identificado.
- MTTR (Mean Time to Recovery), que é o tempo médio que leva para um time se recuperar de um incidente, desde que ele é detectado até que ele é resolvido.
- MTBF (Mean Time Between Failures), que é o tempo médio entre as ocorrências de dois incidentes consecutivos.
As métricas MTTx podem ajudar o executivo a tomar melhores decisões, pois elas permitem:
- Avaliar o desempenho e a eficácia da gestão de incidentes, comparando os valores reais com os valores esperados ou acordados, e identificando as lacunas, as tendências, as anomalias, etc.
- Diagnosticar e solucionar os problemas e as causas raízes da gestão de incidentes, analisando os fatores que influenciam as métricas MTTx, como os recursos, os processos, as ferramentas, as pessoas, etc.
- Melhorar e otimizar a gestão de incidentes, definindo e implementando ações corretivas e preventivas, baseadas nas métricas MTTx, como a capacitação, a automação, a simplificação, a padronização, etc.
- Comunicar e demonstrar o valor e o impacto da gestão de incidentes, usando as métricas MTTx como indicadores de qualidade, de confiabilidade e de satisfação dos serviços, e como argumentos de negociação, de justificativa, de reconhecimento, etc.
Conclusão
A gestão de incidentes em TI é um processo chave para manter a qualidade e a satisfação dos usuários. Esse processo lida com os problemas desde o momento em que são detectados até a solução deles, usando as melhores práticas e ferramentas para corrigi-los rápido e reduzir problemas. Parte importante da gestão de incidentes é adotar uma cultura de SRE (Site Reliability Engineering), que usa técnicas de engenharia de software para criar e manter sistemas confiáveis.
É interessante comparar a gestão de incidentes seguindo a metodologia ITIL, mais tradicional, com a abordagem SRE, mais moderna. Ter um bom processo de gestão de incidentes traz muitos benefícios, como melhor confiabilidade, satisfação do usuário, produtividade e vantagem no mercado.
A organização de um war room eficiente também ajuda, definindo claramente objetivos, escopo, duração, papéis, responsabilidades, ferramentas e sistemas.
Por fim, o monitoramento e aperfeiçoamento da gestão de incidentes podem ser feitos com as métricas MTTx, que avaliam o tempo para resolver um problema. Essas métricas são úteis para os gestores tomarem decisões mais acertadas.