Configurações

Observabilidade - Logs, Métricas e Alertas

48 visualizações Atualizado em 12/06/2026

Observabilidade - Logs, Métricas e Alertas

Resumo

Plataforma interna de observabilidade enterprise: logs estruturados multi-canal, métricas em tempo real, traces distribuídos, alertas configuráveis, uptime interno e 10 endpoints de API wired ao Kernel, EventBus, CacheManager e QueryProfiler. Visibilidade completa do que acontece na plataforma.

Para quem é (papel/role)

super-admin - acesso total.
platform-staff - operação com role dedicado.

O que você pode fazer

Panorama

Dashboard consolidado: saúde, métricas-chave, alertas ativos.

Logs

Canais: app, error, security, audit, query, queue.
Busca avançada: por tenant, usuário, IP, nível, janela temporal.
Tail ao vivo.
Exportação JSON.

Métricas

Infraestrutura: CPU, RAM, disco, I/O.
Aplicação: RPS, latência p50/p95/p99, error rate.
Negócio: MRR, churn, usuários ativos.
Por tenant.

Traces

Distributed tracing: rastreio de requisição por toda a cadeia.

Alertas

Criar alerta: regra, threshold, canal de notificação.
Estado: ativo, disparado, resolvido.
Histórico de disparos.

Uptime

Uptime interno por serviço/endpoint.

Health scores

Score por tenant.
Risco de churn computado por serviço.

Como acessar

/admin.
Settings → Observabilidade ou /admin/settings/observability.

Tutoriais

Investigar aumento de erro 500

/admin/settings/observability → aba Logs.
Filtre canal error, últimas 24h.
Agrupe por stack trace.
Correlacione com métrica error rate no mesmo período.
Acesse o trace para ver a cadeia completa.

Criar alerta de latência p95

Aba Alertas → Novo.
Regra: p95 > 1500ms por 5 minutos.
Canal: e-mail + slack.
Salve.

Ver health score de um tenant

Aba Health scores.
Selecione o tenant.
Veja score agregado e drivers (engajamento, churn risk, volume).

Integrações

Infraestrutura - dados vêm do EventBus, CacheManager, QueryProfiler (infrastructure-servidor.md).
Compliance - logs de segurança entram em auditoria (compliance-lgpd.md).
Notificações - alertas disparam via canais (notifications-admin.md).
Eventos - security.breach, security.rate.limited.

Perguntas frequentes

Logs são multi-tenant? Sim, sempre filtrados por tenant_id quando aplicável.

Métricas são em tempo real? Praticamente. Agregação em janelas curtas (segundos).

Traces consomem muito disco? Amostragem configurável; traces detalhados têm retenção menor.

Alertas suportam quais canais? E-mail, SMS, Slack, webhook, in-app.

Posso exportar logs para SIEM externo? Sim, formato JSON compatível.

Health score considera o que? Engajamento, erros, uso, pagamentos em dia, suporte.

Uptime checa endpoints internos? Sim, rotas críticas configuráveis.

Posso silenciar alerta? Sim, snooze temporário com motivo.

Limitações, políticas e avisos

Logs nunca devem conter senhas, tokens ou dados de cartão.
Retenção de log varia por canal (tipicamente 30-90 dias).
Alertas em excesso geram ruído; use thresholds bem calibrados.
Traces amostrados não cobrem 100% das requisições.

Relacionados

infrastructure-server.md
compliance-lgpd.md
notifications-admin.md
revenue-and-finance.md

Este artigo foi útil?

Perguntas e Respostas

Nenhuma pergunta ainda. Seja o primeiro a perguntar!

Tem uma dúvida sobre este artigo?

Nome

E-mail (não será exibido)

Sua pergunta

Verificação de Segurança