Configurações

Observabilidade - Logs, Métricas e Alertas

Observabilidade - Logs, Métricas e Alertas

Resumo

Plataforma interna de observabilidade enterprise: logs estruturados multi-canal, métricas em tempo real, traces distribuídos, alertas configuráveis, uptime interno e 10 endpoints de API wired ao Kernel, EventBus, CacheManager e QueryProfiler. Visibilidade completa do que acontece na plataforma.

Para quem é (papel/role)

  • super-admin - acesso total.
  • platform-staff - operação com role dedicado.

O que você pode fazer

Panorama

  • Dashboard consolidado: saúde, métricas-chave, alertas ativos.

Logs

  • Canais: app, error, security, audit, query, queue.
  • Busca avançada: por tenant, usuário, IP, nível, janela temporal.
  • Tail ao vivo.
  • Exportação JSON.

Métricas

  • Infraestrutura: CPU, RAM, disco, I/O.
  • Aplicação: RPS, latência p50/p95/p99, error rate.
  • Negócio: MRR, churn, usuários ativos.
  • Por tenant.

Traces

  • Distributed tracing: rastreio de requisição por toda a cadeia.

Alertas

  • Criar alerta: regra, threshold, canal de notificação.
  • Estado: ativo, disparado, resolvido.
  • Histórico de disparos.

Uptime

  • Uptime interno por serviço/endpoint.

Health scores

  • Score por tenant.
  • Risco de churn computado por serviço.

Como acessar

  1. /admin.
  2. Settings → Observabilidade ou /admin/settings/observability.

Tutoriais

Investigar aumento de erro 500

  1. /admin/settings/observability → aba Logs.
  2. Filtre canal error, últimas 24h.
  3. Agrupe por stack trace.
  4. Correlacione com métrica error rate no mesmo período.
  5. Acesse o trace para ver a cadeia completa.

Criar alerta de latência p95

  1. Aba AlertasNovo.
  2. Regra: p95 > 1500ms por 5 minutos.
  3. Canal: e-mail + slack.
  4. Salve.

Ver health score de um tenant

  1. Aba Health scores.
  2. Selecione o tenant.
  3. Veja score agregado e drivers (engajamento, churn risk, volume).

Integrações

  • Infraestrutura - dados vêm do EventBus, CacheManager, QueryProfiler (infrastructure-servidor.md).
  • Compliance - logs de segurança entram em auditoria (compliance-lgpd.md).
  • Notificações - alertas disparam via canais (notifications-admin.md).
  • Eventos - security.breach, security.rate.limited.

Perguntas frequentes

Logs são multi-tenant? Sim, sempre filtrados por tenant_id quando aplicável.

Métricas são em tempo real? Praticamente. Agregação em janelas curtas (segundos).

Traces consomem muito disco? Amostragem configurável; traces detalhados têm retenção menor.

Alertas suportam quais canais? E-mail, SMS, Slack, webhook, in-app.

Posso exportar logs para SIEM externo? Sim, formato JSON compatível.

Health score considera o que? Engajamento, erros, uso, pagamentos em dia, suporte.

Uptime checa endpoints internos? Sim, rotas críticas configuráveis.

Posso silenciar alerta? Sim, snooze temporário com motivo.

Limitações, políticas e avisos

  • Logs nunca devem conter senhas, tokens ou dados de cartão.
  • Retenção de log varia por canal (tipicamente 30-90 dias).
  • Alertas em excesso geram ruído; use thresholds bem calibrados.
  • Traces amostrados não cobrem 100% das requisições.

Relacionados

  • infrastructure-server.md
  • compliance-lgpd.md
  • notifications-admin.md
  • revenue-and-finance.md

Este artigo foi útil?

Perguntas e Respostas

Nenhuma pergunta ainda. Seja o primeiro a perguntar!

Tem uma dúvida sobre este artigo?

CAPTCHA