Relatórios de anomalias com IA para as operações de TI

Daniella Costa

19 de julho de 2021

Relatórios de anomalias com IA para as operações de TI

19 de julho de 2021

A Inteligência Artificial é um sistema que pode realizar tarefas de forma autônoma e sem supervisão humana, podendo acessar e analisar um alto volume de dados em segundos.

A transformação digital tem exigido cada vez mais uma mudança de posicionamento e estratégia em todos os âmbitos dos negócios, com a IA é possível ter mais rapidez e desempenho.

Como o volume de dados só tende a aumentar com o passar do tempo, o gerenciamento de infraestrutura deve acompanhar esse ritmo, exigindo ferramentas cada vez mais velozes que acompanhem o ritmo dos negócios modernos, em que os problemas precisam ser corrigidos imediatamente para que o fluxo das operações e a experiência do usuário não seja afetada.

Gráficos, relatórios e painéis do Site24x7 auxiliam as equipes na visualização e acompanhamento dos eventos, facilitando a tomada de decisões e a prevenção de eventos. Trazendo resultados mais satisfatórios e ágeis nas tomadas de decisão, trabalhando com análise inteligente dos dados e métricas personalizadas, atuando melhor na prevenção de riscos.

Todos os seus KPIs são comparados com os valores de referência sazonais. O Relatório de anomalias ajuda a ajustar o desempenho de seus recursos e proteger sua infraestrutura de quaisquer problemas imprevistos. Você pode compartilhar anomalias com sua equipe gerando um CSV, PDF ou via e-mail.

A ideia por trás da detecção de anomalias em uma métrica que está sendo monitorada é identificar quaisquer picos ou alterações incomuns em uma determinada série. Qualquer medida de monitoramento para a qual a detecção de anomalias deve ser ativada é tratada como uma série de tempo em que é pesquisada em relação ao tempo em intervalos uniformes. Dependendo de certas desigualdades matemáticas que são estáticas, não daria resultados contextualmente consistentes a longo prazo. A Inteligência Artificial (IA) pode resolver isso com uma abordagem que visa detectar uma anomalia, logo após sua ocorrência.

Uma abordagem baseada em IA:

Suavização de tendências : o tratamento de tendências captura a direção geral do padrão (aumento ou queda)
Lidando com Sazonalidade: É a estrutura padrão que continua se repetindo mais ou menos em cada período de tempo
Robustez : torna-o imune a picos de desempenho insignificantes.

Prever tendências com o Anomaly Engine

O ciclo do mecanismo de anomalia consiste em vários estágios que incluem o processamento de dados de entrada de coletores de dados contra os dados de treinamento de IA para gerar uma anomalia confirmada para notificar a própria anomalia. O Anomaly Engine possui um modelo de comparação quantitativa e qualitativa para detecção de anomalias. A previsão com o Anomaly Engine envolve duas etapas:

Geração de evento de anomalia
Pontuação de domínio para determinar a gravidade da anomalia

Geração de evento de anomalia

O objetivo principal desta etapa é realizar o processamento de peso pesado e gerar “ Eventos ”. O mecanismo de detecção de anomalias coleta as métricas a cada 15 minutos dos agentes coletores de dados Site24x7. Para detecção de anomalia univariada, esses dados são comparados com os dados de treinamento do modelo de aprendizado de máquina, que são os respectivos valores do 95º percentil por hora do dia das últimas quatro semanas. Por exemplo, se os dados de sexta-feira forem enviados para detecção de anomalias, os valores das últimas 4 semanas de sexta-feira serão considerados como dados de treinamento para o modelo de aprendizado de máquina. Isso ajuda a atingir a sazonalidade dos dados. Os 95º percentis dos dados são considerados para treinamento a fim de remover os valores extremos presentes (no 95º percentil, os 5% dos valores mais altos são removidos, o que também removerá quaisquer picos incomuns nos dados de treinamento).

Para detecção de anomalias multivariadas, os agentes de coleta de dados do Site24x7 enviam novamente os dados para a plataforma de detecção de anomalias a cada 15 minutos. Os valores de 95º percentil das últimas quatro semanas para atributos correlacionados são usados para treinar o algoritmo. Se a combinação for detectada como uma anomalia, serão determinados os atributos que contribuem para que a combinação seja uma anomalia.

Com base na comparação com os dados de treinamento, os eventos são então gerados e definidos como valores L1, L2 e L3, com os valores L3 tendo a maior chance de ser uma anomalia.

Pontuação de domínio para determinar a gravidade da anomalia

Este estágio adiciona um modelo qualitativo à geração de anomalias, considerando também as anomalias vistas em monitores dependentes. Os eventos somam e dão uma pontuação com base na qual a “ Gravidade da anomalia ” é decidida. Quando uma tarefa de pontuação de anomalia é agendada após a ocorrência da anomalia, o mecanismo de anomalia verifica se houve alguma anomalia para algum monitor dependente durante os últimos 30 minutos. As pontuações são dadas a monitores individuais com base nos atributos que causam a anomalia do monitor e a porcentagem de desvio desses atributos dos valores esperados.

As seguintes metodologias (na mesma ordem especificada abaixo) são geralmente consideradas para a determinação da pontuação final:

Outro atributo do mesmo monitor detectado como anômalo
Monitores dependentes detectados com anomalia
Monitores pais / filhos são anômalos
Monitores, agrupados no mesmo Grupo de Monitores detectados como anômalos
Outro monitor com as mesmas tags (tags definidas pelo usuário) apresenta anomalia
Monitores com o mesmo nome de servidor / mesmo nome de domínio totalmente qualificado (FQDN) apresentam anomalia

Finalmente, com base em fatores como pontuações de domínio, dependências e gravidade crescente da anomalia detectada , a gravidade de uma anomalia é segmentada em três:

Anomalia confirmada: evidencia uma tendência negativa que ocorre de forma persistente. Quando uma anomalia confirmada se repete por um período mais longo, ela claramente o orienta para uma situação de interrupção imediata e inevitável. Conseqüentemente, a anomalia repetitiva confirmada precisa de sua máxima atenção.
Provável anomalia: você deve acompanhar de perto essa tendência, pois ela pode levar a uma situação de interrupção no longo prazo.
Informação: Esta é apenas uma notificação para o usuário e deve ser monitorada de perto, a fim de amenizar quaisquer problemas futuros.

Perfis de limite baseados em AI

O perfil de limite baseado em AI usa detecção de anomalias para determinar o status de um monitor. É uma abordagem de limite dinâmico, ao contrário dos limites estáticos usados atualmente. Nos perfis de limite estático atuais, você terá que definir limites codificados para determinar o status de um monitor. Em caso de qualquer problema, você será notificado apenas quando os limites definidos forem violados.

Para limites baseados em IA, você não poderá definir nenhum limite codificado. Em vez disso, teremos limites dinâmicos que serão atualizados de acordo com o comportamento do monitor. Portanto, em caso de qualquer problema, o cliente será notificado imediatamente assim que o problema começar, em vez de esperar que o limite estático seja violado. Além de ser dinâmico, isso elimina a necessidade de definir estratégias de votação. As estratégias de votação são essenciais para evitar picos intermitentes. Em caso de detecção de anomalias, o bursting de pico é feito para evitar relatar picos intermitentes como anomalias. Conseqüentemente, estratégias de pesquisa codificadas podem ser evitadas.

Interpretar painel de anomalias

O Anomaly Dashboard permite decodificar facilmente quaisquer tendências negativas em sua infraestrutura de TI com antecedência. Você pode localizar e filtrar as anomalias com base no monitor ou na seleção do grupo de monitores.

Use o seletor de Período de tempo para selecionar um intervalo de tempo que varia de ” Últimas 1, 6, 12, 24 horas até um ano atrás “.

Além disso, você pode categorizar anomalias com base nos vários níveis de gravidade, como “Confirmado, Provável e Informações”.

Assim que o painel for gerado, você pode clicar no botão Compartilhar este mostrado no canto superior direito para compartilhar o relatório por e-mail, gerar um CSV ou PDF para compartilhá-lo com seus colegas de equipe. O e-mail pode ser enviado apenas para os usuários verificados que concordaram em receber e-mails do Site24x7.

O painel oferece uma visualização dividida, onde todos os seus monitores e grupos de monitores podem ser vistos no lado esquerdo do painel.

Todas as anomalias listadas terão seu sinalizador de gravidade relevante em relação à mensagem de anomalia. Esta descrição da anomalia permite reunir detalhes detalhados sobre a tendência da anomalia. Para obter mais informações sobre a causa raiz dos problemas de desempenho, clique no hiperlink fornecido junto com a descrição da anomalia.

Passe o mouse sobre o gráfico de linha para visualizar o valor real da métrica para a data e hora específicas. O valor da métrica padrão pode variar de monitor para monitor. Cada monitor terá um ou mais atributos padrão para os quais a detecção de anomalias será habilitada . No entanto, além disso, você também pode usar o menu suspenso acima do gráfico de linha para visualizar outros atributos de desempenho do monitor selecionado, durante o mesmo intervalo de tempo.

Depois de clicar no link Conheça a causa raiz de uma mensagem específica do Anomaly, você verá uma janela pop-up modal onde poderá localizar um gráfico de linha com os valores da métrica rastreados nas últimas quatro semanas.

Conheça na prática como o Site24x7 pode ajudar você e o seu negócio. Nossos técnicos estão disponíveis para te apresentar a melhor solução de monitoramento em nuvem para sua infraestrutura, conte sempre com o apoio da equipe ACSoftware.

Testar grátis o Site24x7

ACSoftware / Figo Software seu Distribuidor e Revenda ManageEngine no Brasil

Fone (11) 4063 1007 – Vendas (11) 4063 9639

Relatórios de anomalias com IA para as operações de TI

Daniella Costa

Relatórios de anomalias com IA para as operações de TI

Prever tendências com o Anomaly Engine

Geração de evento de anomalia

Pontuação de domínio para determinar a gravidade da anomalia

Perfis de limite baseados em AI

Interpretar painel de anomalias

Leia Mais

Os Benefícios de um NOC para a Infraestrutura de TI da Sua Empresa

Integração simplificada usando regras de configuração

Os 3 principais motivos pelos quais você precisa usar a ferramenta analisadora de thread dump do Site24x7

Redes Sociais

Links

Contato