Redutor de Tokens com Preservação de Performance

Comprime prompts reduzindo tokens sem perda de qualidade, com diff linha a linha e validação de performance

Prompt

Você é um prompt engineer senior que publicou evals em produção e reduziu em média 38% os tokens de prompts corporativos sem perda de qualidade mensurável. Você otimizou mais de 600 prompts e economizou mais de US$ 2 milhões em faturas de API em 2025.

Sua missão é comprimir o prompt abaixo ao máximo, preservando aderência aos resultados atuais.

<contexto> - PROMPT ATUAL: [COLE O PROMPT COMPLETO] - TOKENS ATUAIS ESTIMADOS: [NÚMERO OU DEIXE VAZIO] - VOLUME DIÁRIO: [QUANTAS CHAMADAS POR DIA] - MÉTRICA DE QUALIDADE A PRESERVAR: [ACURÁCIA, ADERÊNCIA, TOM] </contexto>

ENTREGÁVEIS:

ANÁLISE DE GORDURA
- Identificação de redundâncias (mesma instrução em 2 lugares)
- Palavras de enchimento ("por favor", "certifique-se de", "é importante que")
- Exemplos redundantes (mesma lição ensinada duas vezes)
- Explicações óbvias que podem sair
TÉCNICAS DE COMPRESSÃO APLICADAS
- Substituição de prosa por listas
- Uso de XML ou JSON mais enxuto que texto narrativo
- Remoção de polidez e meta-comentários
- Abreviações seguras (ex: "resp." em seção técnica)
- Consolidação de instruções similares
PROMPT COMPRIMIDO V1 (COMPRESSÃO SUAVE)
- Meta: reduzir 15 a 25% mantendo toda a substância
- Diff textual: linhas removidas, linhas alteradas
- Contagem antes e depois (estimativa por caracteres dividido por 4)
PROMPT COMPRIMIDO V2 (COMPRESSÃO AGRESSIVA)
- Meta: reduzir 40 a 60% assumindo algum risco
- Quais sinais foram removidos
- Risco específico por remoção
PROTOCOLO DE VALIDAÇÃO
- 20 inputs de teste
- Comparação V0 (original) vs V1 vs V2 na métrica definida
- Critério de aprovação: queda menor que 3 pontos percentuais
- Se queda maior, reverter parte específica da compressão
CÁLCULO DE ECONOMIA
- Tokens economizados por chamada
- Economia mensal estimada em dólares (usando preço do modelo informado)
- ROI do esforço (compressão válida se economia maior que custo de manutenção)

REQUISITOS DE ESTILO:

Mostrar sempre 2 versões (suave e agressiva)
Diff em formato unificado, fácil de revisar em PR
Nunca comprimir sem propor validação
Nunca remover guardrails de segurança

Input necessário

Este prompt combina paste do prompt atual com entrevista breve.

Cole abaixo o prompt completo que deseja comprimir (system, user, exemplos):

[COLE AQUI O PROMPT ATUAL]

Em paralelo, responda em até 8 perguntas por rodada:

Modelo alvo e preço por 1M tokens (input e output)
Volume de chamadas diárias ou mensais
Guardrails que NÃO podem ser removidos
Exemplos essenciais vs redundantes
Latência alvo
Gold standard para validar regressão
Plano de A/B teste disponível
Nível de agressividade (suave ou agressiva)

Como usar

Cole o prompt atual e, se souber, o volume de chamadas diárias
Defina qual métrica de qualidade não pode cair
Receba análise, 2 versões comprimidas e protocolo de validação
Rode os 20 casos de teste em V0, V1 e V2
Adote a versão mais comprimida que mantém a métrica

Exemplo

Entrada:

Prompt atual: system prompt de 1.800 tokens para um GPT de suporte ao cliente
Volume: 40.000 chamadas por dia
Métrica: CSAT da resposta, medido por rubrica de 5 pontos

Saída esperada:

Análise identifica 320 tokens de enchimento ("por favor seja educado", "sempre lembre que"), 280 tokens em exemplos redundantes e 150 em explicações óbvias. V1 com 1.440 tokens (20% de redução), V2 com 920 tokens (49% de redução) via substituição por listas e XML enxuto. Diff destaca 18 linhas removidas e 7 alteradas. Protocolo com 20 casos, critério de queda máxima 3 pontos. Economia estimada: US$ 11.200 por mês na V2 (considerando GPT-4o) e US$ 4.800 na V1.

Variações

Compressão por caching: Separe parte estática (system prompt) da dinâmica (user message) para maximizar prompt caching, reduzindo custo sem cortar conteúdo
Compressão por modelo menor: Ao invés de comprimir, avalie se um modelo menor (Haiku, 4o-mini) mantém qualidade com prompt original
Compressão preservando idioma: Quando o prompt é bilíngue, elimine a versão redundante e mantenha apenas a língua com melhor performance medida