fbpx

Engenharia do caos em um ambiente Azure: confiante o suficiente para experimentar?

Daniella Costa

Engenharia do caos em um ambiente Azure: confiante o suficiente para experimentar?

A Netflix deu ao mundo dois lindos presentes: uma plataforma de streaming de mídia para o público em geral e um macaco maravilhoso para a comunidade tecnológica. Já foi dito o suficiente sobre a parte de streaming de mídia, então vamos brincar (ou trabalhar) com o macaco agora. Quando a Netflix divulgou ao mundo sobre o Chaos Monkey, a comunidade tecnológica parou um minuto para se levantar e aplaudir. Desde então, tem sido um padrão desencadear o caos intencional apenas para ver quão robustas são realmente as nossas pilhas de tecnologia.
Para quem conhece Chaos Monkey por nomes diferentes, tudo começou quando a Netflix desenvolveu uma ferramenta que intencionalmente causa estragos em seus sistemas e observa onde estão os impactos. Uma infraestrutura resiliente não deve deixar os clientes serem afetados, por isso o Chaos Monkey expõe os pontos fracos. O termo engenharia do caos tornou-se mais prevalente, incentivando muitas organizações a usá-lo para eliminar bugs que normalmente não eram encontrados há décadas.
Isso nos leva à questão principal: por que você deveria considerar a engenharia do caos em um ambiente Azure? A nuvem é um produto complexo e brilhantemente construído. Uma empresa típica utiliza vários produtos Azure para as suas aplicações e serviços. Esses serviços estão todos vagamente conectados entre si, mas são muito dependentes. Uma interrupção ou degradação do desempenho em um serviço pode ser transferida para outros serviços mais rapidamente do que o esperado. As falhas na zona de disponibilidade também são um grande fator a considerar ao tentar tornar a sua infraestrutura resiliente. Mas, novamente, por que a engenharia do caos especificamente em um ambiente Azure?
Os serviços em nuvem hospedam diferentes processos em diferentes serviços divididos em pacotes. A chance de uma falha passar despercebida é maior em uma plataforma em nuvem do que em uma configuração local, porque você tem dados, processos e aplicativos em silos. O Azure é o nosso exemplo hoje, mas o cenário de engenharia caótica vale para todos os outros provedores de serviços de nuvem pública.
Mas a nuvem é robusta, não é? Robusto, sim. Infalível, não. Vejamos um exemplo em pequena escala. Um aplicativo depende de bancos de dados hospedados em VMs (máquinas virtuais) do Azure. Estas VMs estão ligadas através da Rede Virtual Azure. Os ataques DDoS habituais são facilmente tratados pela Rede Virtual do Azure. Yay! Robusto? Sim.
Mas e se um macaquinho do caos matar uma VM? Quais serão as respostas às seguintes perguntas?
  • A VM foi reiniciada?
  • Os bancos de dados estão conectados à VM corretamente?
  • Os bancos de dados dependem da VM com alta latência?
  • Algum cliente foi afetado porque a VM foi desligada?
  • Por quanto tempo os clientes foram afetados?
Essas são as perguntas que surgem nos primeiros 10 segundos após imaginar a situação. Mas, na realidade, quando este cenário acontece na produção, sai fumo também de uma quantidade substancial de outros serviços dependentes. Infalível? Não.
E se houver caos, mas você não sabe disso? Você não quer estar em uma posição em que haja perda de dados ou algo esteja quebrado, mas ninguém sabe disso até que um cliente irritado envia um e-mail de duas páginas ameaçando passar para seu concorrente. Em termos do exemplo acima, a VM está funcionando perfeitamente, mas e se mysqldb.exe não tiver iniciado mesmo após reiniciar a VM?
Por mais que pareça assustador (e emocionante), a engenharia do caos prepara você para o pior. Equipes em todo o mundo implantam macacos do caos pelo menos em seus ambientes de teste (se se sentirem corajosos no dia, também em seus ambientes de produção) para ver os elos mais fracos e implantar contramedidas. Se você se sentir pronto para iniciar o caos (engenharia), vá imediatamente para o Azure Chaos Studio, onde verá instruções sobre como usar a própria ferramenta do Azure para testar a engenharia do caos.

Como o Site24x7 se encaixa aqui?

Seja um cenário de engenharia caótica totalmente contido ou uma interrupção não planejada, o Site24x7 envia alertas para as pessoas certas antes que seu negócio seja prejudicado. Para colocar isso no cenário acima:
  1. Quando a VM é desligada :
    1. Site24x7 envia um alerta de inatividade para o sysadmin .
    2. A automação de TI entra em ação e tenta reiniciar a VM .
    3. A integração de monitorização da Rede Virtual Azure envia um alerta de inatividade informando que há muitos pings falhados para o VM.
    4. O Site24x7 envia alertas informando que seus bancos de dados estão enfrentando degradação de desempenho por meio do Banco de Dados do Azure para integração MySQL ou da integração de monitoramento de banco de dados MySQL .
  2. Depois que a VM for reiniciada :
    1. O Site24x7 envia uma notificação de que a VM está online novamente.
    2. Site24x7 envia um alerta de que o serviço mysqldb.exe está inativo .
Isso fornece um mapa preciso de todos os pontos de fumaça, proporcionando tempo suficiente para implantar medidas de mitigação temporárias enquanto você trabalha em soluções permanentes. Novamente, esta é uma representação em escala muito pequena do que um macaco do caos pode fazer. O resultado final é que você não deve esperar até uma interrupção para proteger a configuração do Azure.
Site24x7 é uma solução de observabilidade de nível empresarial para DevOps e ITOps. Nossa solução de monitoramento do Azure alertou os clientes sobre cerca de 1,4 milhão de interrupções em 2023. O Site24x7 oferece suporte a mais de 100 tipos de serviços do Azure para monitoramento , para que você possa visualizar a integridade de toda a sua infraestrutura de TI em um só lugar.
As organizações escolhem o monitoramento Azure do Site24x7 porque a camada de observabilidade que fornecemos é rápida, confiável, robusta e escalonável.

Procurando por uma solução confiável e eficiente para monitorar sua rede? O Site24x7 da Zoho é a escolha certa para você!

Experimente hoje mesmo e descubra como ele pode transformar a maneira como você gerencia sua infraestrutura de TI. Você pode testar o Site24x7 dentro da sua empresa sem custo algum.

Que tal começar agora mesmo? Conheça na prática como o Site24x7 pode impulsionar seu negócio e contar com o apoio da equipe ACSoftware, especialistas em soluções de monitoramento em nuvem.

Teste grátis o Site24x7 agora mesmo e entre em contato com a ACSoftware. / Figo Software, seu parceiro ManageEngine no Brasil. Estamos aqui para ajudar!

📞 Fone (11) 4063 1007 – Vendas (11) 4063 9639