Observabilidade - Logs, Métricas e Alertas
Observabilidade - Logs, Métricas e Alertas
Resumo
Plataforma interna de observabilidade enterprise: logs estruturados multi-canal, métricas em tempo real, traces distribuídos, alertas configuráveis, uptime interno e 10 endpoints de API wired ao Kernel, EventBus, CacheManager e QueryProfiler. Visibilidade completa do que acontece na plataforma.
Para quem é (papel/role)
- super-admin - acesso total.
- platform-staff - operação com role dedicado.
O que você pode fazer
Panorama
- Dashboard consolidado: saúde, métricas-chave, alertas ativos.
Logs
- Canais: app, error, security, audit, query, queue.
- Busca avançada: por tenant, usuário, IP, nível, janela temporal.
- Tail ao vivo.
- Exportação JSON.
Métricas
- Infraestrutura: CPU, RAM, disco, I/O.
- Aplicação: RPS, latência p50/p95/p99, error rate.
- Negócio: MRR, churn, usuários ativos.
- Por tenant.
Traces
- Distributed tracing: rastreio de requisição por toda a cadeia.
Alertas
- Criar alerta: regra, threshold, canal de notificação.
- Estado: ativo, disparado, resolvido.
- Histórico de disparos.
Uptime
- Uptime interno por serviço/endpoint.
Health scores
- Score por tenant.
- Risco de churn computado por serviço.
Como acessar
/admin.- Settings → Observabilidade ou
/admin/settings/observability.
Tutoriais
Investigar aumento de erro 500
/admin/settings/observability→ aba Logs.- Filtre canal error, últimas 24h.
- Agrupe por stack trace.
- Correlacione com métrica error rate no mesmo período.
- Acesse o trace para ver a cadeia completa.
Criar alerta de latência p95
- Aba Alertas → Novo.
- Regra:
p95 > 1500ms por 5 minutos. - Canal: e-mail + slack.
- Salve.
Ver health score de um tenant
- Aba Health scores.
- Selecione o tenant.
- Veja score agregado e drivers (engajamento, churn risk, volume).
Integrações
- Infraestrutura - dados vêm do EventBus, CacheManager, QueryProfiler (
infrastructure-servidor.md). - Compliance - logs de segurança entram em auditoria (
compliance-lgpd.md). - Notificações - alertas disparam via canais (
notifications-admin.md). - Eventos -
security.breach,security.rate.limited.
Perguntas frequentes
Logs são multi-tenant? Sim, sempre filtrados por tenant_id quando aplicável.
Métricas são em tempo real? Praticamente. Agregação em janelas curtas (segundos).
Traces consomem muito disco? Amostragem configurável; traces detalhados têm retenção menor.
Alertas suportam quais canais? E-mail, SMS, Slack, webhook, in-app.
Posso exportar logs para SIEM externo? Sim, formato JSON compatível.
Health score considera o que? Engajamento, erros, uso, pagamentos em dia, suporte.
Uptime checa endpoints internos? Sim, rotas críticas configuráveis.
Posso silenciar alerta? Sim, snooze temporário com motivo.
Limitações, políticas e avisos
- Logs nunca devem conter senhas, tokens ou dados de cartão.
- Retenção de log varia por canal (tipicamente 30-90 dias).
- Alertas em excesso geram ruído; use thresholds bem calibrados.
- Traces amostrados não cobrem 100% das requisições.
Relacionados
- infrastructure-server.md
- compliance-lgpd.md
- notifications-admin.md
- revenue-and-finance.md
Este artigo foi útil?
Perguntas e Respostas
Nenhuma pergunta ainda. Seja o primeiro a perguntar!