fbpx

Análise de causa raiz: por que ela é importante

Manter um alto nível de disponibilidade para cada aplicativo, permanecer no caminho de atualização e proteger a todos contra ataques mal-intencionados garante que a informação flua onde for necessário, quando necessário.

A análise de causa raiz (RCA) é o processo de descobrir a causa raiz de problemas para identificar as soluções adequadas. A RCA parte do princípio de que é muito mais útil prevenir sistematicamente e resolver os problemas subjacentes do que simplesmente tratar sintomas pontuais e apagar incêndios.

Relatório de análise de causa raiz (RCA)

Com o Site24x7, sempre que um tempo de inatividade é detectado, um  relatório de análise de causa raiz (RCA) é acionado e enviado a um usuário com base no contato e meio de alerta. O RCA gerado fornece o motivo real por trás do tempo de inatividade, junto com o mapa de rota de rastreamento para diagnosticar problemas de conectividade.

Por exemplo, um servidor falha devido a um alto uso do processo. O Site24x7 irá declarar o monitor como inativo e enviar um RCA ao usuário. O agente de monitoramento do servidor coletará os principais processos por CPU, memória e outros eventos antes do servidor travar e os apresentará no relatório RCA. Isso ajudará a solucionar problemas mais rapidamente e evitar problemas de degradação de desempenho semelhantes no futuro.

Os diferentes componentes de um relatório RCA para um servidor Windows e Linux são discutidos:

  • janelas
  • Linux

RCA para um servidor Windows:

Os vários componentes gerados em um relatório RCA quando um tempo de inatividade é detectado em um servidor Windows são os seguintes:

Detalhes do monitordetalhes básicos do monitor, incluindo nome do monitor, tipo, endereço IP, nome do host, duração do tempo de inatividade são listados.

Principais processos por CPU  (inclui a média dos últimos 5 minutos): Representação gráfica dos principais processos que utilizam a maior quantidade de CPU. Além disso, outro gráfico mostra os principais processos que utilizam a maior quantidade de memória nos últimos 5 minutos.

Principais processos por memória (inclui a média dos últimos 5 minutos): Representação gráfica dos principais processos que utilizam a maior quantidade de memória. Além disso, outro gráfico mostra os principais processos que utilizam a maior quantidade de memória nos últimos 5 minutos.

Detalhes do disco: lista os discos com seu tamanho total e o espaço livre disponível.

Status do disco rígido: o tamanho dos discos rígidos, seu status atual e qualquer descrição de qualquer erro ocorrido no disco rígido é fornecido.

Rota de rastreamento: para permitir a inclusão da análise de rota de rastreamento no RCA, o usuário deve fornecer acesso de firewall para obter a rota de rastreamento do domínio plus.site24x7.com. Habilitar isso permitirá que o usuário analise a razão real por trás dos problemas de conectividade e execute ações corretivas o mais rápido.

Logs de eventos: o tipo de logs de eventos (aviso, erro, falha de auditoria, crítico), sua descrição, a hora em que foi escrito e sua origem são anotados.

Saiba como o Site24x7 pode ajudar você e o seu negócio. Nossos técnicos estão disponíveis para te apresentar a melhor solução de monitoramento em nuvem para sua infraestrutura, conte sempre com o apoio da equipe ACSoftware.

ACSoftware / Figo Software seu Distribuidor e Revenda ManageEngine no Brasil

Fone (11) 4063 1007 – Vendas (11) 4063 9639

Identifique a causa real por trás de um tempo de inatividade

Uma causa raiz é definida como um fator que causou uma não conformidade e deve ser permanentemente eliminada através da melhoria do processo.

A análise de causa raiz é definida como um termo coletivo que descreve uma ampla variedade de abordagens, ferramentas e técnicas usadas para descobrir causas de problemas.

A causa raiz é o problema central que desencadeia toda a reação de causa e efeito que, em última instância, leva ao (s) problema (s).

A RCA parte do princípio de que é muito mais útil prevenir sistematicamente e resolver os problemas subjacentes do que simplesmente tratar sintomas pontuais e apagar incêndios.

A análise de causa raiz pode ser feita com um conjunto de princípios, técnicas e metodologias que permitem identificar a causa raiz de um evento ou uma tendência. Indo além de uma verificação superficial de causa e efeito, a RCA pode mostrar onde processos ou sistemas falharam ou causaram um problema.

Segundo o ITIL (2011):

  • “Incidente: É uma interrupção não planejada de um serviço de TI ou uma redução da qualidade de um serviço de TI”.
  • “Problema: é a existência de um erro cuja causa é desconhecida. É a causa desconhecida de um ou mais incidentes”.
  • “Incidentes são causados por problemas que precisam ser resolvidos”.

Se Problema é a causa desconhecida de um ou mais Incidentes, logo um incidente não pode se tornar um problema pelo simples fato de que o incidente só ocorre porque já existe um problema, cuja a causa raiz é desconhecida.

Caso a empresa não identifique na análise a verdadeira causa raiz do problema, o mesmo poderá se repetir várias vezes.

O Site24x7 pode te enviar um alerta de tempo de inatividade convencional, que  consistirá na hora de início, hora de término, local e duração da instância. Embora essas informações sejam boas para agir imediatamente em instâncias inativas, uma análise mais detalhada o ajudará a identificar o motivo exato que desencadeou o tempo de inatividade. Site24x7 RCA é uma análise aprofundada para determinar o motivo real por trás de um incidente de tempo de inatividade.

Use a análise da causa raiz do Site24x7 para determinar o motivo real por trás de um tempo de inatividade e evitar ocorrências futuras. 

O que o Site24x7 RCA oferece?

  • Cabeçalhos de solicitação HTTP para todos os erros HTTP.
  • Análise de DNS para todos os erros de tempo de inatividade.
  • Capturas de tela de tempo de inatividade para monitores analisadores de site e página da web para ver o erro exato retornado.
  • Faça o rastreamento até o servidor para verificar a conectividade da rede.
  • Resposta HTML para todos os erros de incompatibilidade de conteúdo.
  • Oferece uma conclusão sobre por que o servidor está inativo com base nos erros recebidos.

Relatório de análise de causa raiz (RCA)

Sempre que um tempo de inatividade é detectado, um  relatório de análise de causa raiz (RCA) é acionado e enviado a um usuário com base no contato e meio de alerta. O RCA gerado fornece o motivo real por trás do tempo de inatividade, junto com o mapa de rota de rastreamento para diagnosticar problemas de conectividade.

Por exemplo, um servidor falha devido a um alto uso do processo. O Site24x7 irá declarar o monitor como inativo e enviar um RCA ao usuário. O agente de monitoramento do servidor coletará os principais processos por CPU, memória e outros eventos antes do servidor travar e os apresentará no relatório RCA. Isso ajudará a solucionar problemas mais rapidamente e evitar problemas de degradação de desempenho semelhantes no futuro.

Detalhes do monitordetalhes básicos do monitor, incluindo nome do monitor, tipo, endereço IP, nome do host, duração do tempo de inatividade são listados.

Principais processos por CPU  (inclui a média dos últimos 5 minutos): Representação gráfica dos principais processos que utilizam a maior quantidade de CPU. Além disso, outro gráfico mostra os principais processos que utilizam a maior quantidade de memória nos últimos 5 minutos.

Principais processos por memória (inclui a média dos últimos 5 minutos): Representação gráfica dos principais processos que utilizam a maior quantidade de memória. Além disso, outro gráfico mostra os principais processos que utilizam a maior quantidade de memória nos últimos 5 minutos.

Detalhes do disco: lista os discos com seu tamanho total e o espaço livre disponível.

Status do disco rígido: o tamanho dos discos rígidos, seu status atual e qualquer descrição de qualquer erro ocorrido no disco rígido é fornecido.

Rota de rastreamento: para permitir a inclusão da análise de rota de rastreamento no RCA, o usuário deve fornecer acesso de firewall para obter a rota de rastreamento do domínio plus.site24x7.com. Habilitar isso permitirá que o usuário analise o motivo real por trás dos problemas de conectividade e execute ações corretivas o mais rápido possível.

Logs de eventos : o tipo de logs de eventos (aviso, erro, falha de auditoria, crítico), sua descrição, a hora em que foi escrito e sua origem são anotados.

Status do ventilador da CPU: status atual do ventilador da CPU.

Usuários conectados: o número de usuários ativos nesse servidor são categorizados.

Softwares instalados nos últimos 30 dias: Estão tabulados os softwares que foram instalados nos últimos 30 dias em seu servidor.

Sessões de usuário: o número de usuários ativos nesse servidor são categorizados.

Erros de disco: erros de disco do kernel, que incluem erro de E / S e erros do sistema de arquivos.

Mensagens do driver: as mensagens de erro do kernel serão listadas.

Syslogs: O ID do processo desse syslog específico, mensagem de erro, a hora formatada e o nível de gravidade são declarados.

Conheça na prática como o Site24x7 pode ajudar você e o seu negócio. Nossos técnicos estão disponíveis para te apresentar a melhor solução de monitoramento em nuvem para sua infraestrutura, conte sempre com o apoio da equipe ACSoftware.

ACSoftware / Figo Software seu Distribuidor e Revenda ManageEngine no Brasil

Fone (11) 4063 1007 – Vendas (11) 4063 9639