fbpx

Conheça o painel de anomalias alimentada por IA        

Daniella Costa

Conheça o painel de anomalias alimentada por IA        

A estrutura de anomalias alimentada por IA do Site24x7 usa os algoritmos Robust Principal Component Analysis (RPCA) e Matrix sketching para detectar quaisquer picos ou aberrações incomuns nos atributos críticos de desempenho do seu monitor, tempo de resposta, porcentagem de CPU usada, utilização de memória e etc.

A ideia por trás da detecção de anomalias em uma métrica sendo monitorada é identificar quaisquer picos ou aberrações incomuns em uma determinada série. Qualquer medida de monitoramento para a qual a detecção de anomalia deve ser habilitada é tratada como uma série temporal em que é pesquisada em relação ao tempo em intervalos uniformes. Dependendo de certas desigualdades matemáticas que são estáticas, não daria resultados contextualmente consistentes a longo prazo. A Inteligência Artificial (IA) pode resolver isso com uma abordagem que visa detectar uma anomalia, assim que ela ocorrer imediatamente.

Uma abordagem baseada em IA tem sabores distintos, como:

  • Suavização de tendências : o manuseio de tendências captura a direção geral do padrão (aumento ou queda)
  • Lidando com a sazonalidade: É a estrutura padrão que continua se repetindo mais ou menos em cada período de tempo
  • Robustez : Torna-o imune a picos de desempenho insignificantes.

Além disso, notificá-lo sobre esses picos em um painel gráfico ou tabular detalhado dentro do cliente da web e por meio de e-mails de alerta. Todos os seus KPIs são comparados com valores de referência sazonais. O Relatório de Anomalias ajuda você a ajustar o desempenho de seus recursos e proteger sua infraestrutura de quaisquer problemas imprevistos. Você pode compartilhar anomalias com sua equipe gerando um CSV, PDF ou via e-mail. 

Preveja tendências com o Anomaly Engine

O ciclo do mecanismo de anomalia consiste em vários estágios que incluem o processamento de dados recebidos de coletores de dados em relação aos dados de treinamento de IA para gerar uma anomalia confirmada e notificar a própria anomalia. O Anomaly Engine possui um modelo de comparação quantitativa e qualitativa para detecção de anomalias. A previsão com o Anomaly Engine envolve duas etapas:

  • Geração de Evento de Anomalia
  • Pontuação de domínio para determinar a gravidade da anomalia

Geração de Evento de Anomalia

O principal objetivo desta etapa é realizar o processamento de peso pesado e gerar “ Eventos ”. O mecanismo de detecção de anomalias coleta as métricas a cada 15 minutos dos agentes coletores de dados do Site24x7. Para detecção de anomalias univariadas, esses dados são comparados com os dados de treinamento para o modelo de aprendizado de máquina, que são os valores de 95º percentil por hora do dia respectivo das últimas duas semanas. Por exemplo, se os dados de sexta-feira forem enviados para detecção de anomalias, os valores de sexta-feira das últimas duas semanas serão considerados como dados de treinamento para o modelo de aprendizado de máquina. Isso ajuda a alcançar a sazonalidade nos dados. Os percentis 95 dos dados são considerados para treinamento a fim de remover os valores extremos presentes (no percentil 95, os 5% dos valores mais altos são removidos, o que também removerá quaisquer picos incomuns nos dados de treinamento).

Para Detecção de Anomalias Multivariadas, os agentes de coleta de dados do Site24x7 enviam dados novamente para a plataforma de detecção de Anomalias a cada 15 minutos. Os valores do percentil 95 por hora das últimas duas semanas para atributos correlacionados são usados ​​para treinar o algoritmo. Se a combinação for detectada como uma anomalia, serão determinados os atributos que contribuem para que a combinação seja uma anomalia.

Com base na comparação com os dados de treinamento, os eventos são gerados e definidos como valores L1, L2 e L3, com os  valores L3 tendo a maior chance de ser uma anomalia.

Pontuação de domínio para determinar a gravidade da anomalia

Esta etapa adiciona um modelo qualitativo à geração de anomalias, considerando também as anomalias observadas em monitores dependentes. Os eventos somam e dão uma pontuação com base na qual a “ Gravidade da Anomalia ” é decidida. Quando uma tarefa de pontuação de anomalia é agendada após a ocorrência de anomalia, o mecanismo de anomalia verifica se houve alguma anomalia para qualquer monitor dependente durante os últimos 30 minutos. As pontuações são atribuídas a monitores individuais com base nos atributos que causam anomalias no monitor e na porcentagem de desvio desses atributos em relação aos valores esperados.

As seguintes metodologias (na mesma ordem especificada abaixo) são geralmente consideradas para a determinação da pontuação final:

  • Outro atributo do mesmo monitor detectado como anômalo
  • Monitores dependentes detectados com anomalia
  • Monitores pai/filho são anômalos
  • Monitores, agrupados no mesmo grupo de monitores detectados como anômalos
  • Outro monitor com as mesmas Tags (tags definidas pelo usuário) tem anomalia
  • Monitores com o mesmo nome de servidor/mesmo nome de domínio totalmente qualificado (FQDN) têm anomalia 

Por fim, com base em fatores como pontuações de domínio, dependências e gravidade crescente da anomalia detectada , a gravidade de uma anomalia é segmentada em três:

  • Anomalia Confirmada : Destaca uma tendência negativa que ocorre de forma persistente. Quando uma anomalia confirmada se repete por um período mais longo, ela o orienta claramente para uma situação de interrupção imediata e inevitável. Portanto, a anomalia confirmada repetitiva precisa de sua máxima atenção.
  • Anomalia provável : Você deve manter um controle de perto sobre essa tendência, pois pode levar a uma situação de interrupção a longo prazo.
  • Info: Esta é apenas uma notificação para o usuário e deve ser monitorada de perto, a fim de aliviar quaisquer problemas futuros.
  • Perfis de limite baseados em IA

O perfil de limite baseado em IA usa a detecção de anomalias para determinar o status de um monitor. É uma abordagem de limite dinâmico diferente dos limites estáticos usados ​​atualmente. Nos perfis de limite estáticos atuais, você terá que definir limites codificados para determinar o status de um monitor. Em caso de qualquer problema, você será notificado apenas quando os limites definidos forem violados.

Para limites baseados em IA, você não poderá definir nenhum limite codificado. Em vez disso, teremos limites dinâmicos que serão atualizados de acordo com o comportamento do monitor. Assim, em caso de qualquer problema, o cliente será notificado imediatamente assim que o problema começar, em vez de esperar que o limite estático seja violado. Além de ser dinâmico, isso elimina a necessidade de definir estratégias de pesquisa. As estratégias de pesquisa são essenciais para evitar picos intermitentes. Em caso de detecção de anomalias, a explosão de picos é feita para evitar relatar picos intermitentes como anomalias. Assim, as estratégias de sondagem codificadas podem ser evitadas.

Como funciona?

Você pode selecionar um perfil estático ou perfil baseado em IA no formulário de perfil de limite existente. Se você escolher “Perfil baseado em IA”, a opção de seleção de gravidade será mostrada para os atributos para os quais a anomalia foi habilitada. Para atributos que não possuem anomalia habilitada, as configurações de limite estático serão mostradas independentemente da seleção do tipo de perfil. Uma combinação de perfis estáticos e baseados em IA não pode ser selecionada. Você obterá configurações baseadas em IA apenas para os atributos para os quais a opção de anomalia foi ativada.

No perfil de limite de IA

  • Cada atributo terá duas opções de gravidade, ou seja, Provável e Confirmado. Eles representam gravidades da anomalia. Se a gravidade Provável estiver definida como Problema, significa que “se houver uma anomalia Provável no atributo, faça com que o status do monitor seja Problema”. O mesmo acontece com o Confirmado. Mas ambas as gravidades não podem ter a mesma mudança de status.
  • Cada atributo também possui uma opção de Automação que pode ser mapeada para a ação necessária se houver uma anomalia provável ou confirmada.

Interpretar o painel de anomalias

O Anomaly Dashboard permite decodificar facilmente quaisquer tendências negativas em sua infraestrutura de TI com antecedência. Você pode localizar e filtrar as Anomalias com base na seleção de monitores ou grupos de monitores.

Siga as etapas abaixo para visualizar e interpretar o Painel de anomalias:

  1. Faça login na conta do Site24x7.
  2. Navegue até  Home > Painel de anomalias.
  1. Use o  seletor Período  de tempo para selecionar um período de tempo que varia de ” Últimas 1, 6, 12, 24 horas até um ano atrás “. Você pode classificar as anomalias pesquisando os nomes dos monitores/grupos na barra de pesquisa .                            
  2. Além disso, você pode categorizar anomalias com base nos vários níveis de gravidade, como “confirmado, provável e informações”. 
  1. Depois que o painel for gerado, você pode clicar no botão Compartilhar no canto superior direito para compartilhar o relatório por e-mail, gerar um CSV ou PDF para compartilhá-lo com seus colegas de equipe. O e-mail pode ser enviado apenas para os usuários verificados que concordaram em receber e-mails do Site24x7.

O painel oferece uma visualização dividida onde todos os seus monitores e grupos de monitores podem ser vistos no lado esquerdo do painel. Na extremidade direita da tela do painel, você pode visualizar o gráfico de Resumo de Anomalias para o período de tempo solicitado e o motivo específico para cada Anomalia detectada (listada em Histórico de Anomalias). Você pode classificar as anomalias pesquisando o nome do monitor/grupo no campo de pesquisa ou filtrando com base nos níveis de gravidade . O gráfico de resumo de anomalias exibe a contagem de anomalias de monitores/grupos de monitores para cada dia durante o período de tempo selecionado. A contagem de anomalias de monitores é exibida usando um gráfico de barras empilhado. As Anomalias Individuais serão listadas na seção Histórico de Anomalias, com uma mensagem detalhada sobre cada Anomalia listada. Todas as anomalias listadas terão seu sinalizador de gravidade relevante em relação à mensagem de anomalia. Esta Descrição da Anomalia permite reunir detalhes detalhados sobre a tendência da anomalia. Para obter mais informações sobre a causa raiz dos problemas de desempenho, clique no hiperlink fornecido junto com a descrição da anomalia.

Depois de clicar no link Conheça a causa raiz  de uma mensagem de anomalia específica, você verá uma janela pop-up modal na qual poderá identificar um gráfico de linhas com os valores da métrica. Basta passar o mouse sobre o gráfico de linhas para visualizar o valor real da métrica para a data e hora específicas. O valor da métrica padrão pode variar de monitor para monitor. Cada monitor terá um ou mais atributos padrão para os quais a detecção de anomalias será habilitada . No entanto, além disso, você também pode usar o menu suspenso acima do gráfico de linhas para visualizar outros atributos de desempenho do monitor selecionado, durante o mesmo intervalo de tempo.

Você pode experimentar o Site24x7 dentro da sua empresa sem custo algum. Que tal realizar esse teste agora?

Conheça na prática como o Site24x7 pode ajudar você e o seu negócio. Nossos técnicos estão disponíveis para te apresentar a melhor solução de monitoramento em nuvem para sua infraestrutura, conte sempre com o apoio da equipe ACSoftware.

ACSoftware / Figo Software seu Distribuidor e Revenda ManageEngine no Brasil

Fone (11) 4063 1007 – Vendas (11) 4063 9639