fbpx

Integração simplificada usando regras de configuração

Daniella Costa

Integração simplificada usando regras de configuração

Se o seu negócio está crescendo, sua infraestrutura de TI também deve crescer. Servidores, VMs, bancos de dados, nós, pods, contêineres e todos os seus recursos digitais são gerados e desativados, tudo de acordo com as necessidades do seu negócio. O problema é que todos esses elementos da infraestrutura precisam ser monitorados sem que isso seja uma tarefa hercúlea para sua equipe.
Aqui estão alguns pontos problemáticos que surgem sempre que um servidor ou VM é adicionado:
  • Configurando uma plataforma de monitoramento para o recurso
  • Atribuição de limites seguros de utilização de recursos para CPU, memória e disco.
  • Monitorando processos e serviços críticos em execução nele.
  • Encaminhamento dos alertas para os indivíduos diretamente responsáveis ​​(DRIs) adequados.
  • E o mais importante, definir o que não monitorar.
As regras de configuração irão ajudá-lo a resolver todos esses problemas e muito mais. Cada vez que você aumenta sua rede de monitoramento para cobrir um novo dispositivo ou deseja direcionar uma alteração de configuração para um conjunto específico de dispositivos, as regras de configuração vêm em seu socorro. Este documento mostrará como.
Antes de mergulharmos de cabeça, veja se esse cenário lhe parece familiar.
Você está tentando configurar sua nova ferramenta de monitoramento de servidor. O plano é configurá-lo corretamente como:
  • Alertas de interrupções acontecendo apenas nos servidores de produção.
  • Os alertas de interrupção devem chegar até você por meio de um aplicativo de mensagens instantâneas (como Slack ou Teams).
  • Exclua a configuração do teste de aceitação do usuário (UAT) do monitoramento.
  • Observabilidade de arquivos, diretórios e portas críticos.
  • Alertas quando um processo fica inativo.
  • Garantir que alertas de partição de disco não sejam acionados para casos inofensivos (como snap sendo preenchido).
Por que isso parece doloroso? Porque as ferramentas de monitoramento prontas para uso são bastante simples, como gerar um alerta quando um servidor fica inativo. Mas como você o adapta às suas necessidades sem quebrá-lo ou pagar um consultor (que poderia levantar uma fatura que poderia levá-lo à falência)?
Digamos que seus SREs e administradores de sistemas encontraram tempo e paciência para configurar sua ferramenta de monitoramento para satisfazer todas as condições acima. Bom trabalho! Mas boa sorte ao replicar o mesmo processo para os milhares de servidores restantes por aí.
Para encerrar esse processo terrível, o Site24x7 possui regras de configuração. Com as regras de configuração, qualquer alteração na configuração de um monitor pode ser enviada apenas para os monitores do servidor que satisfaçam determinadas condições; por exemplo, apenas os monitores marcados como USWest1 ou pertencentes a um intervalo de IP específico.
Os casos de uso são abundantes. Mas primeiro, vamos começar com algo simples.

Um caso de uso típico

Considere um exemplo de organização que possui 20.000 servidores em locais locais e todos os três principais provedores de nuvem pública (AWS, Azure e GCP). Os servidores na nuvem estão espalhados por diferentes locais. Os bancos de dados estão configurados para recuperação total, portanto, arquivos de log muito grandes são um problema conhecido. Os servidores de aplicativos estão sob ameaça de vazamento de memória. As VMs continuam aumentando e diminuindo, e sempre que uma nova VM é gerada, ela deve ser monitorada e, quando for encerrada, o monitoramento deve ser interrompido.
Portanto, uma configuração de monitoramento ideal para este ambiente deveria:
  1. Separe os monitores com identificadores exclusivos. Por exemplo, os monitores da VM do Azure e os monitores da VM da AWS devem ser agrupados separadamente. Os servidores de aplicativos e servidores de banco de dados devem ser marcados para identificação. Deveria haver uma opção para agrupar e marcar os monitores com base em uma variedade de identificadores.
  2. O caso de uso de cada servidor é único. Os servidores de banco de dados e de cache devem ser monitorados quanto à conectividade e ao uso do disco, enquanto os servidores de aplicativos devem ser monitorados quanto à utilização de CPU e memória.
  3. Picos momentâneos não devem enviar alertas para alguns servidores.
  4. A fadiga alerta é perigosa. A equipe ou pessoa apropriada deve receber os alertas, e não toda a equipe de administradores de sistemas.
  5. Os servidores de banco de dados devem alertar quando o processo “mysqld” estiver inativo e os servidores de aplicativos devem alertar quando um processo java crítico ou qualquer processo em um caminho específico estiver inativo.

Mais de 13.000 organizações lidam com os problemas acima sem suar a camisa. Como?

Com o ManageEngine Site24x7. Vamos abordar o cenário acima peça por peça.

Monitore grupos e tags

Site24x7 permite agrupar seus servidores. Por exemplo, se você tiver 20.000 servidores e 10.000 deles estiverem no Azure e o restante estiver na AWS, você poderá criar dois grupos de monitores chamados “Azure” e “AWS”. A melhor parte desse método é que, com regras de configuração, você não precisa criar um grupo de monitores todas as vezes. Defina uma regra para criar grupos de monitores e o Site24x7 cuidará disso para você. Site24x7 permite agrupar os monitores do seu servidor com base em vários parâmetros, como nome do host, endereço IP e muitos mais (incluindo tipo de sistema operacional).

Alertas

Os servidores são utilizados por diversos motivos, ou seja, os alertas associados a cada servidor também devem ser personalizados; no entanto, feito sob medida não significa necessariamente feito sempre à mão. Crie perfis de limite para cada tipo de servidor que você possui apenas uma vez, atribua regras para ditar qual perfil deve ser aplicado a um servidor e você estará classificado para sempre. Qualquer monitor novo ou existente obedecerá a essas regras – as regras de configuração nunca podem ser distorcidas ou quebradas.
Quer entender melhor os perfis de limite? Pense nisso como um modelo que contém o gatilho para alertas. Defina o limite para a métrica de desempenho e integridade apenas uma vez. Pode ser associado a centenas ou milhares de servidores conforme sua capacidade e utilização.
Aqui está um exemplo de como os limites de alerta geralmente são definidos. Com o Site24x7, existem três níveis de gravidade para alertas: Inativo, Crítico e Problema. Digamos que você queira criar um perfil de limite para uma VM de computação que é propensa a picos de utilização de memória, mas que é crítica para um processo de negócios. Você definiria estes limites:
  • Alerta de “problema” com utilização de memória de “90%”.
  • Alerta “crítico” com utilização de memória de “95%”.
  • Frequência de pesquisa (ou seja, frequência de busca de dados) definida como “1 minuto”.
  • Valor da pesquisa definido como pesquisas “2”, o que oferece margem de manobra decente para filtrar picos momentâneos. Desta forma os alertas são acionados apenas quando os limites são ultrapassados ​​durante dois ciclos consecutivos de recolha de dados (ou seja, 2 minutos).
Esta é apenas uma forma de configurar alertas para um servidor ou VM. Com o Site24x7, você tem opções para definir limites de alerta para mais de 80 métricas de integridade e desempenho de seus servidores.

Fadiga de alerta

Caso um servidor esteja lidando com um pico de utilização de memória, isso deve ser suficiente para alertar o DRI que está trabalhando no turno e não aquele que acabou de terminar o turno e caiu na cama. Como isso seria possível? Com nossos perfis de notificação e programação de plantão .
Pense nos perfis de notificação e nas programações de plantão como modelos onde você insere quem deve ser alertado, em que horário e também quando escalar. Por exemplo, o grupo de alerta de usuário “DBAdminAlpha” deve receber alertas das 8h às 20h e “DBAdminBeta” deve receber alertas das 20h às 8h. Se os técnicos não reconhecerem o alerta dentro de um prazo, digamos 5 minutos, o próximo alerta vai para o gerente, digamos “DBAngryBoss”, que fica no nível de escalonamento. Sim, isso tornará a vida muito mais fácil.

Usando as regras de configuração do Site24x7

Para testar regras de configuração, você precisa de:
  1. Uma conta de administrador válida do Site24x7 com alguns monitores de servidor (quanto mais, melhor).
  2. E é isso.

Crie

Faça login em sua conta Site24x7 e, no painel esquerdo, clique em Admin . Na seção Inventário , clique em Regras de configuração . No canto superior direito da página, clique em Adicionar regra . É hora de começar a configurar!

Diga

Forneça um nome adequado para a regra. “Dave1” e “Rule1” são nomes suficientes, mas vamos escolher algo que a maioria de nós entenderia imediatamente ao olhar para ele. Bons exemplos são “DBServersCPURule” e “Prod Servers USWest1 ECom”. Opcionalmente, você também pode fornecer uma breve descrição para ajudar outras pessoas a entender por que esta regra foi criada.

Priorize

Quando definido como Yes , a alternância “Parar a execução de outras regras” evita que outras regras de baixa prioridade (mais sobre prioridades posteriormente) sejam executadas para o conjunto de monitores alvo da regra que estamos criando agora.

Configure-o

Selecione Monitor de servidor no menu suspenso Critérios . Você também pode aplicar regras de configuração para todos os outros tipos de monitores da lista; mas, por enquanto, nos limitaremos ao monitoramento do servidor.
Há um ícone “ + ” próximo ao campo Critérios. Clique no ícone + para adicionar mais campos que permitem definir condições em qualquer monitor aos quais as regras serão aplicadas. Por exemplo, uma vez clicado no ícone “+”, ele adiciona mais um campo com um menu suspenso. Agora você pode definir se as regras devem ser executadas em monitores de servidor, incluindo critérios como os monitores de servidor marcados como “USWest1”, apenas os monitores de servidor que contêm a string “Apache” no nome do monitor, apenas os servidores que executam o sistema operacional Linux ou os servidores que estão em um intervalo de IP específico.
Agora que definimos onde as regras devem ser executadas, o próximo passo é definir as ações a serem executadas. Você pode selecionar qual perfil de limite será associado aos monitores que satisfaçam as condições que acabamos de definir. Ou você pode associar um perfil de notificação, adicioná-los a um grupo de monitores, marcá-los com uma tag específica, alterar a frequência de coleta de dados, adicionar um perfil de verificação de recursos para monitorar arquivos, diretórios ou portas, habilitar um monitor de processo, excluir disco específico partições do monitoramento ou associar um perfil de monitoramento de log. Há também uma série de outras opções das quais você pode se beneficiar, cada uma das quais encorajamos você a utilizar.

Automatize

A seguir está o modelo opcional de automação de TI, onde você define ações de correção automática quando qualquer um dos seus servidores sofre degradação de desempenho. Por exemplo, quando a utilização da memória do seu servidor ultrapassar 95%, você poderá reiniciá-lo automaticamente por meio da automação de TI.

Executá-lo

Você pode clicar em Salvar para executar esta regra sempre que um novo monitor de servidor for criado ou clicar em Salvar e Executar Regra para executar esta regra imediatamente também em monitores de servidor existentes. Depois que as regras forem salvas, você retornará à página Regras de configuração , onde poderá ver a primeira coluna que diz “Prioridade”. O campo Prioridade é editável (ou seja, clique no número de prioridade para atribuir a sequência). Se a alternância “Parar de executar outras regras” estiver definida como Sim , as regras de prioridades mais baixas não serão aplicadas.

Procurando por uma solução confiável e eficiente para monitorar sua rede? O Site24x7 da Zoho é a escolha certa para você!

Experimente hoje mesmo e descubra como ele pode transformar a maneira como você gerencia sua infraestrutura de TI. Você pode testar o Site24x7 dentro da sua empresa sem custo algum.

Que tal começar agora mesmo? Conheça na prática como o Site24x7 pode impulsionar seu negócio e contar com o apoio da equipe ACSoftware, especialistas em soluções de monitoramento em nuvem.

Teste grátis o Site24x7 agora mesmo e entre em contato com a ACSoftware. / Figo Software, seu parceiro ManageEngine no Brasil. Estamos aqui para ajudar!

📞 Fone (11) 4063 1007 – Vendas (11) 4063 9639