Observabilidade alinhada ao negócio

Recentemente, venho  explicando e diferenciando os conceitos de monitoramento e observabilidade para ajudar profissionais a disseminar a cultura para outras equipes e gastando a skin instrutora também.

O monitoramento irá te responder “O quê?” e “Quando?”, enquanto a observabildade irá te responder o “Porquê?”  e “Como?”.  Ele irá monitorar eventos conhecidos ao longo do tempo e te alertar quando estiverem próximos ao acontecimento para que consiga planejar ações estratégicas. A observabilidade irá te ajudar a mitigar falhas que não são previstas, mapeadas através da correlação entre:

Logs: registros de  ações. (toda falha e registro de acesso, “too many requests”)

Traces: rastros de requisições e solicitações de serviços. (aquele clique no frontend que aciona 5 microsserviços e resgistra no banco de dados para te retornar informações, e se o banco estiver off?)

Métricas: recursos. (rede indisponível, problema de firewall, “system out of memory”)

Os passos para iniciar a implantação são pautados em incentivar a cultura dentro das equipes para que entendam a importância e solucionem os problemas ativos se respaldando de ter fragilidades em seu ambiente. Nunca é sobre apontar de quem deve ser o problema, e sim mostrar a prova do funcionamento/disponibilidade.

Ferramenta: Se torna o menor dos problemas quando a equipe sabe para qual objetivo e onde estão os dados. Hoje em dia, se tem uma gama de ferramentas pagas e gratuitas para entregar objetivos específicos e abrangentes, muito é visto sobre a combinação de ferramentas e o que tenho incentivado é a busca por ser agnóstico tendo em vista o custo financeiro e o nascimento de outras frentes.

Integração: A correlação de manual de métricas nasce com a integração de diferentes datasources agrupando esses dados de visualização. É assim, que nascem as métricas de negócio, impacto e automações. Na identificação de problemas em tempo real e o impacto deles. Iniciando um processo de análise e insights de processos ou ações de melhoria no ambiente e para exposições da métrica.

Os 4 principais desafios enfrentados na implantação da cultura são esses na expectativa de avançar os níveis de maturidade da observabilidade, e são eles:

1 – Monitoramento: Monitorar eventos ao longo do tempo e alertar.

2 – Observabilidade: Coleta de métricas, traces e logs de forma automática e análise de problemas.

3 – Observabilidade causal: Estabelecimento de correlação entre sintoma e causa dos gargalos.

4 – Observabilidade + AIOps e automação:  como solução dos problemas, tracando redes neurais desde a prévia quanto tratando anomalias de dados e comportamento.

Dentro dessas estratégias, acaba sendo inevitável a dúvida de quem realiza esses papéis. Visto que DevOps e SRE atuam nesses cenários.

Sendo assim, a correlação entre eles se faz muito nitída como abordada na imagem acima. O que muda é o foco de cada atuação.

E para começar a jornada, é necessário levantar os problemas (dores) conhecidos e o seu parque de equipamentos e aplicações(linguagens e dependências). Fazer o uso dos 5 porquês para mapear os processos de monitoramento e seu impacto e assim entender e desenhar a regra de negócio par aos alertas e dashboards. Só depois de ter esse mapeamento que inicia-se o hands-on para decisão de ferramenta, e levantamento das stacks de monitoramento e observabilidade.

O famoso pulo do gato é levantar requisitos que te tragam a resposta do impacto daquela métrica no problema e se perguntar: Como eu faço para esse problema que causa indisponibilidade, e consequentemente um prejuizo, não aconteça?

Abaixo deixo exemplos de situações comuns no dia-a-dia de um e-commerce.

A visão operacional deve ser simples, com cores, informações intuitivas e letras grandes para facilitar o dia-a-dia do suporte técnico. Já uma visão gerencial, o mais interessante é que se consiga ter a visão dessa métrica durante um período de tempo, componentes associados e faturamento unido.

Nesse processo, os conceitos abordados no livro de Engenharia de Confiabilidade do Google são muito comuns e práticos para ter uma análise proativa até chegar na evolução de correlação.

Um deles é o USE e RED, que normamente são dados que aparecem no escopo da solicitação e apesar de suas siglas serem semelhantes, os focos são diferentes.

Logo, se faz necessária a diferenciação de aspectos:

Bem como os exemplos para fixar de forma bem didática.

E para finalizar, os sinais de ouro que aparecem na saída das solicitações (traces).

No vídeo do youtube trago mais exemplos e alguns cases de monitoramentos e observabilidade como forma de insight para seu negócio.

https://www.youtube.com/watch?v=BMez_NkilQ0

Talvez você também goste desses tópicos