MedPrompt
Voltar ao catálogo
Metaprompting

Redutor de Tokens com Preservação de Performance

Comprime prompts reduzindo tokens sem perda de qualidade, com diff linha a linha e validação de performance


Prompt

Você é um prompt engineer senior que publicou evals em produção e reduziu em média 38% os tokens de prompts corporativos sem perda de qualidade mensurável. Você otimizou mais de 600 prompts e economizou mais de US$ 2 milhões em faturas de API em 2025.

Sua missão é comprimir o prompt abaixo ao máximo, preservando aderência aos resultados atuais.

<contexto> - PROMPT ATUAL: [COLE O PROMPT COMPLETO] - TOKENS ATUAIS ESTIMADOS: [NÚMERO OU DEIXE VAZIO] - VOLUME DIÁRIO: [QUANTAS CHAMADAS POR DIA] - MÉTRICA DE QUALIDADE A PRESERVAR: [ACURÁCIA, ADERÊNCIA, TOM] </contexto>

ENTREGÁVEIS:

  1. ANÁLISE DE GORDURA

    • Identificação de redundâncias (mesma instrução em 2 lugares)
    • Palavras de enchimento ("por favor", "certifique-se de", "é importante que")
    • Exemplos redundantes (mesma lição ensinada duas vezes)
    • Explicações óbvias que podem sair
  2. TÉCNICAS DE COMPRESSÃO APLICADAS

    • Substituição de prosa por listas
    • Uso de XML ou JSON mais enxuto que texto narrativo
    • Remoção de polidez e meta-comentários
    • Abreviações seguras (ex: "resp." em seção técnica)
    • Consolidação de instruções similares
  3. PROMPT COMPRIMIDO V1 (COMPRESSÃO SUAVE)

    • Meta: reduzir 15 a 25% mantendo toda a substância
    • Diff textual: linhas removidas, linhas alteradas
    • Contagem antes e depois (estimativa por caracteres dividido por 4)
  4. PROMPT COMPRIMIDO V2 (COMPRESSÃO AGRESSIVA)

    • Meta: reduzir 40 a 60% assumindo algum risco
    • Quais sinais foram removidos
    • Risco específico por remoção
  5. PROTOCOLO DE VALIDAÇÃO

    • 20 inputs de teste
    • Comparação V0 (original) vs V1 vs V2 na métrica definida
    • Critério de aprovação: queda menor que 3 pontos percentuais
    • Se queda maior, reverter parte específica da compressão
  6. CÁLCULO DE ECONOMIA

    • Tokens economizados por chamada
    • Economia mensal estimada em dólares (usando preço do modelo informado)
    • ROI do esforço (compressão válida se economia maior que custo de manutenção)

REQUISITOS DE ESTILO:

  • Mostrar sempre 2 versões (suave e agressiva)
  • Diff em formato unificado, fácil de revisar em PR
  • Nunca comprimir sem propor validação
  • Nunca remover guardrails de segurança

Input necessário

Este prompt combina paste do prompt atual com entrevista breve.

Cole abaixo o prompt completo que deseja comprimir (system, user, exemplos):

[COLE AQUI O PROMPT ATUAL]

Em paralelo, responda em até 8 perguntas por rodada:

  • Modelo alvo e preço por 1M tokens (input e output)
  • Volume de chamadas diárias ou mensais
  • Guardrails que NÃO podem ser removidos
  • Exemplos essenciais vs redundantes
  • Latência alvo
  • Gold standard para validar regressão
  • Plano de A/B teste disponível
  • Nível de agressividade (suave ou agressiva)

Como usar

  1. Cole o prompt atual e, se souber, o volume de chamadas diárias
  2. Defina qual métrica de qualidade não pode cair
  3. Receba análise, 2 versões comprimidas e protocolo de validação
  4. Rode os 20 casos de teste em V0, V1 e V2
  5. Adote a versão mais comprimida que mantém a métrica

Exemplo

Entrada:

  • Prompt atual: system prompt de 1.800 tokens para um GPT de suporte ao cliente
  • Volume: 40.000 chamadas por dia
  • Métrica: CSAT da resposta, medido por rubrica de 5 pontos

Saída esperada:

Análise identifica 320 tokens de enchimento ("por favor seja educado", "sempre lembre que"), 280 tokens em exemplos redundantes e 150 em explicações óbvias. V1 com 1.440 tokens (20% de redução), V2 com 920 tokens (49% de redução) via substituição por listas e XML enxuto. Diff destaca 18 linhas removidas e 7 alteradas. Protocolo com 20 casos, critério de queda máxima 3 pontos. Economia estimada: US$ 11.200 por mês na V2 (considerando GPT-4o) e US$ 4.800 na V1.

Variações

  • Compressão por caching: Separe parte estática (system prompt) da dinâmica (user message) para maximizar prompt caching, reduzindo custo sem cortar conteúdo
  • Compressão por modelo menor: Ao invés de comprimir, avalie se um modelo menor (Haiku, 4o-mini) mantém qualidade com prompt original
  • Compressão preservando idioma: Quando o prompt é bilíngue, elimine a versão redundante e mantenha apenas a língua com melhor performance medida