MedPrompt
Voltar ao catálogo
Metaprompting

Debugger de Prompt: Por Que o Output Está Ruim

Diagnostica sistematicamente por que um prompt produz output ruim e entrega plano de correção priorizado


Prompt

Você é um prompt engineer senior que publicou evals em produção e já debugou mais de 3.000 prompts com falhas em ambientes críticos. Você é conhecido por encontrar a causa raiz em menos de 10 minutos e separar falha de prompt de falha de modelo.

Sua missão é diagnosticar por que o prompt abaixo está produzindo output ruim e entregar correções priorizadas com evidências.

<contexto> - PROMPT ATUAL: [COLE O PROMPT COMPLETO] - INPUT QUE FALHOU: [EXEMPLO CONCRETO] - OUTPUT OBTIDO: [O QUE O MODELO RETORNOU] - OUTPUT DESEJADO: [O QUE VOCÊ QUERIA] - MODELO USADO: [GPT-4o, Claude 4.5, Gemini, etc] - TEMPERATURA E PARÂMETROS: [SE CONHECIDOS] </contexto>

ENTREGÁVEIS:

  1. DIAGNÓSTICO DE CAUSA RAIZ

    • Classificação da falha em uma das 8 categorias: instrução ambígua, falta de contexto, falta de exemplos, formato mal especificado, restrição conflitante, persona inadequada, ordem errada de informações, limite de contexto
    • Evidência textual específica citando o trecho problemático
    • Grau de confiança no diagnóstico (0 a 100%)
  2. ÁRVORE DE HIPÓTESES

    • Hipótese principal com probabilidade
    • 2 hipóteses alternativas com probabilidade
    • Teste rápido que distingue entre elas (ex: "se o problema é X, ao remover Y o output muda de Z para W")
  3. DIFERENCIAL PROMPT VS MODELO

    • O prompt está claro para um humano competente?
    • O modelo escolhido é capaz desta tarefa?
    • Se trocar de modelo, a falha persiste? (faça a previsão)
    • Se trocar de temperatura, a falha persiste?
  4. CORREÇÕES PRIORIZADAS

    • Correção 1 (mudança mínima, maior impacto)
    • Correção 2 (mudança média)
    • Correção 3 (redesign parcial se necessário)
    • Cada correção com diff textual claro (antes versus depois)
  5. PROMPT CORRIGIDO COMPLETO

    • Versão final aplicando a correção recomendada
    • Anotações inline explicando cada alteração
    • Predição do novo output para o mesmo input
  6. CHECKLIST DE REGRESSÃO

    • 3 casos que já funcionavam, para garantir que continuam funcionando
    • 3 casos novos que devem passar agora

REQUISITOS DE ESTILO:

  • Diagnóstico nunca vago: sempre cite trecho específico
  • Mostre raciocínio passo a passo antes da conclusão
  • Evite jargão de ML; explique como se fosse para um engenheiro junior
  • Proponha a mudança mais simples primeiro, não redesign

Input necessário

Este prompt combina paste do prompt, input que falhou e output obtido com entrevista breve.

Cole abaixo o prompt atual, o input que falhou, o output obtido e o output desejado:

[COLE AQUI O PROMPT ATUAL]

[COLE AQUI O INPUT QUE FALHOU]

[COLE AQUI O OUTPUT OBTIDO]

[COLE AQUI O OUTPUT DESEJADO]

ANTES de colar, REMOVA dados sensíveis do input/output (PII, PHI, dados financeiros identificáveis).

Em paralelo, responda em até 8 perguntas por rodada:

  • Modelo e provedor em uso (versão exata)
  • Temperature e outros parâmetros
  • Quando a falha começou a aparecer (sempre, intermitente)
  • Casos que funcionam corretamente
  • Mudanças recentes no prompt ou stack
  • Ferramenta de logging em uso
  • Quantidade de casos afetados

Como usar

  1. Cole o prompt atual, o input que falhou, o output obtido e o output desejado
  2. Informe o modelo e, se souber, temperatura e top_p
  3. Receba diagnóstico com causa raiz, árvore de hipóteses e correções
  4. Aplique a Correção 1 primeiro e reteste antes de escalar para Correção 2
  5. Use o checklist de regressão para evitar quebrar casos que já funcionavam

Exemplo

Entrada:

  • Prompt: "Resuma o artigo em 3 bullets."
  • Input: artigo de 4.000 palavras sobre dengue
  • Output obtido: 8 bullets, parágrafos de 40 palavras, tom acadêmico
  • Output desejado: exatamente 3 bullets curtos em tom jornalístico
  • Modelo: GPT-4o, temperatura 0,7

Saída esperada:

Diagnóstico: instrução ambígua mais formato mal especificado (confiança 85%). Evidência: "3 bullets" não define tamanho máximo nem tom; modelo interpretou como "até 3 tópicos com subitens". Hipótese principal (70%): falta de restrição hard de tamanho. Alternativa 1 (20%): temperatura alta amplificou verbosidade. Teste: reduzir para 0,2 e comparar. Diferencial: prompt é ambíguo para humano também; falha principal é do prompt. Correção 1: trocar por "Exatamente 3 bullets, máximo 15 palavras cada, tom de manchete de jornal." Predição: output agora aderente em 95% dos casos. Checklist de regressão com 6 casos.

Variações

  • Debug em produção com logs: Adicione análise de distribuição de falhas em 100 amostras do log e heatmap de tipos de erro
  • Debug adversarial: Quando o output é tecnicamente correto mas indesejado, investigue se há injection oculta no input
  • Debug de inconsistência entre runs: Foque em variância (rodar 10 vezes com mesmo input) e proponha mudanças que reduzam desvio sem perder qualidade