Métricas de destaque rápido
- 80% — Redução de tráfego desnecessário de API
- 50% — Redução de custos de infraestrutura
- Insights precisos sobre jornadas de clientes.
- Apoio para investigações dos times de Suporte N1 e N2.
Desafios
Lentidão operacional e impacto na experiência de clientes
Uma grande empresa de telecomunicações enfrentava gargalos complexos na análise de integridade de seu ecossistema tecnológico. A falta de visibilidade centralizada gerava lentidão operacional e impactava a experiência de clientes finais.
Diagnóstico lento e manual
Os logs operacionais ficavam dispersos em múltiplas ferramentas. Isso exigia que as equipes reconstruíssem manualmente as jornadas das pessoas usuárias para identificar falhas, tornando o processo lento, custoso e muitas vezes impreciso.
Sobrecarga de infraestrutura que impactava o suporte
Falhas não detectadas a tempo geravam tráfego excessivo e sobrecarregavam os servidores. Esses problemas técnicos atrasavam inovações e geravam um alto volume de abertura de chamados no suporte.
Solução
Squad de especialistas da Zup usando Amazon Bedrock e Amazon OpenSearch.
A equipe estruturou uma plataforma web fluida que centraliza os logs de produção do Amazon OpenSearch. Essa arquitetura estabeleceu uma fonte única da verdade para a realização de consultas rápidas e consolidação de dados estruturados.
A solução incluiu uma camada de análise automatizada via Inteligência Artificial Generativa por meio do Amazon Bedrock. O modelo executa a interpretação inteligente de erros sistêmicos e categoriza as APIs críticas de forma automatizada.
A aplicação permite que o time técnico visualize dashboards interativos e realize correções de problemas em tempo real.
Impacto
Para extrair valor contínuo e otimizar o fluxo de trabalho das equipes, o time estabeleceu ativos analíticos integrados diretamente na plataforma:
- Visão Geral (API Health): Dashboard técnico focado na saúde do ecossistema que identifica latências altas e permite a filtragem de dados por período, API e tipo de criticidade da falha.
- Customer Tracking: Módulo focado em equipes de atendimento que permite rastrear cenários de erro recentes inserindo apenas um campo identificador de determinado cliente.
- Relatório em Lote: Automação baseada no upload de arquivos CSV que identifica falhas no período selecionado para listas massivas de clientes, gerando painéis interativos de análise.
Resultados
Impactos técnicos
- Redução de 80% no tráfego desnecessário após a identificação e correção de um loop infinito em uma única análise diagnóstica.
- Diminuição significativa no tempo de resposta das APIs críticas associada a um aumento na eficiência e precisão das análises de logs.
Impactos nos negócios
- Redução de 50% nos custos de infraestrutura obtida diretamente através da eliminação do tráfego redundante na operação.
- Melhora na estabilidade dos sistemas e redução de indisponibilidades
- Suporte para investigações dos times de atendimento N1 e N2.



