Uma causa raiz é definida como um fator que causou uma não conformidade e deve ser permanentemente eliminada através da melhoria do processo.
A análise de causa raiz é definida como um termo coletivo que descreve uma ampla variedade de abordagens, ferramentas e técnicas usadas para descobrir causas de problemas.
A causa raiz é o problema central que desencadeia toda a reação de causa e efeito que, em última instância, leva ao (s) problema (s).
A RCA parte do princípio de que é muito mais útil prevenir sistematicamente e resolver os problemas subjacentes do que simplesmente tratar sintomas pontuais e apagar incêndios.
A análise de causa raiz pode ser feita com um conjunto de princípios, técnicas e metodologias que permitem identificar a causa raiz de um evento ou uma tendência. Indo além de uma verificação superficial de causa e efeito, a RCA pode mostrar onde processos ou sistemas falharam ou causaram um problema.
Segundo o ITIL (2011):
- “Incidente: É uma interrupção não planejada de um serviço de TI ou uma redução da qualidade de um serviço de TI”.
- “Problema: é a existência de um erro cuja causa é desconhecida. É a causa desconhecida de um ou mais incidentes”.
- “Incidentes são causados por problemas que precisam ser resolvidos”.
Se Problema é a causa desconhecida de um ou mais Incidentes, logo um incidente não pode se tornar um problema pelo simples fato de que o incidente só ocorre porque já existe um problema, cuja a causa raiz é desconhecida.
Caso a empresa não identifique na análise a verdadeira causa raiz do problema, o mesmo poderá se repetir várias vezes.
O Site24x7 pode te enviar um alerta de tempo de inatividade convencional, que consistirá na hora de início, hora de término, local e duração da instância. Embora essas informações sejam boas para agir imediatamente em instâncias inativas, uma análise mais detalhada o ajudará a identificar o motivo exato que desencadeou o tempo de inatividade. Site24x7 RCA é uma análise aprofundada para determinar o motivo real por trás de um incidente de tempo de inatividade.
Use a análise da causa raiz do Site24x7 para determinar o motivo real por trás de um tempo de inatividade e evitar ocorrências futuras.
O que o Site24x7 RCA oferece?
- Cabeçalhos de solicitação HTTP para todos os erros HTTP.
- Análise de DNS para todos os erros de tempo de inatividade.
- Capturas de tela de tempo de inatividade para monitores analisadores de site e página da web para ver o erro exato retornado.
- Faça o rastreamento até o servidor para verificar a conectividade da rede.
- Resposta HTML para todos os erros de incompatibilidade de conteúdo.
- Oferece uma conclusão sobre por que o servidor está inativo com base nos erros recebidos.
Relatório de análise de causa raiz (RCA)
Sempre que um tempo de inatividade é detectado, um relatório de análise de causa raiz (RCA) é acionado e enviado a um usuário com base no contato e meio de alerta. O RCA gerado fornece o motivo real por trás do tempo de inatividade, junto com o mapa de rota de rastreamento para diagnosticar problemas de conectividade.
Por exemplo, um servidor falha devido a um alto uso do processo. O Site24x7 irá declarar o monitor como inativo e enviar um RCA ao usuário. O agente de monitoramento do servidor coletará os principais processos por CPU, memória e outros eventos antes do servidor travar e os apresentará no relatório RCA. Isso ajudará a solucionar problemas mais rapidamente e evitar problemas de degradação de desempenho semelhantes no futuro.
Detalhes do monitor: detalhes básicos do monitor, incluindo nome do monitor, tipo, endereço IP, nome do host, duração do tempo de inatividade são listados.
Principais processos por CPU (inclui a média dos últimos 5 minutos): Representação gráfica dos principais processos que utilizam a maior quantidade de CPU. Além disso, outro gráfico mostra os principais processos que utilizam a maior quantidade de memória nos últimos 5 minutos.
Principais processos por memória (inclui a média dos últimos 5 minutos): Representação gráfica dos principais processos que utilizam a maior quantidade de memória. Além disso, outro gráfico mostra os principais processos que utilizam a maior quantidade de memória nos últimos 5 minutos.
Detalhes do disco: lista os discos com seu tamanho total e o espaço livre disponível.
Status do disco rígido: o tamanho dos discos rígidos, seu status atual e qualquer descrição de qualquer erro ocorrido no disco rígido é fornecido.
Rota de rastreamento: para permitir a inclusão da análise de rota de rastreamento no RCA, o usuário deve fornecer acesso de firewall para obter a rota de rastreamento do domínio plus.site24x7.com. Habilitar isso permitirá que o usuário analise o motivo real por trás dos problemas de conectividade e execute ações corretivas o mais rápido possível.
Logs de eventos : o tipo de logs de eventos (aviso, erro, falha de auditoria, crítico), sua descrição, a hora em que foi escrito e sua origem são anotados.
Status do ventilador da CPU: status atual do ventilador da CPU.
Usuários conectados: o número de usuários ativos nesse servidor são categorizados.
Softwares instalados nos últimos 30 dias: Estão tabulados os softwares que foram instalados nos últimos 30 dias em seu servidor.
Sessões de usuário: o número de usuários ativos nesse servidor são categorizados.
Erros de disco: erros de disco do kernel, que incluem erro de E / S e erros do sistema de arquivos.
Mensagens do driver: as mensagens de erro do kernel serão listadas.
Syslogs: O ID do processo desse syslog específico, mensagem de erro, a hora formatada e o nível de gravidade são declarados.
Conheça na prática como o Site24x7 pode ajudar você e o seu negócio. Nossos técnicos estão disponíveis para te apresentar a melhor solução de monitoramento em nuvem para sua infraestrutura, conte sempre com o apoio da equipe ACSoftware.
ACSoftware / Figo Software seu Distribuidor e Revenda ManageEngine no Brasil
Fone (11) 4063 1007 – Vendas (11) 4063 9639