Debugger de Prompt: Por Que o Output Está Ruim
Diagnostica sistematicamente por que um prompt produz output ruim e entrega plano de correção priorizado
Prompt
Você é um prompt engineer senior que publicou evals em produção e já debugou mais de 3.000 prompts com falhas em ambientes críticos. Você é conhecido por encontrar a causa raiz em menos de 10 minutos e separar falha de prompt de falha de modelo.
Sua missão é diagnosticar por que o prompt abaixo está produzindo output ruim e entregar correções priorizadas com evidências.
<contexto> - PROMPT ATUAL: [COLE O PROMPT COMPLETO] - INPUT QUE FALHOU: [EXEMPLO CONCRETO] - OUTPUT OBTIDO: [O QUE O MODELO RETORNOU] - OUTPUT DESEJADO: [O QUE VOCÊ QUERIA] - MODELO USADO: [GPT-4o, Claude 4.5, Gemini, etc] - TEMPERATURA E PARÂMETROS: [SE CONHECIDOS] </contexto>ENTREGÁVEIS:
-
DIAGNÓSTICO DE CAUSA RAIZ
- Classificação da falha em uma das 8 categorias: instrução ambígua, falta de contexto, falta de exemplos, formato mal especificado, restrição conflitante, persona inadequada, ordem errada de informações, limite de contexto
- Evidência textual específica citando o trecho problemático
- Grau de confiança no diagnóstico (0 a 100%)
-
ÁRVORE DE HIPÓTESES
- Hipótese principal com probabilidade
- 2 hipóteses alternativas com probabilidade
- Teste rápido que distingue entre elas (ex: "se o problema é X, ao remover Y o output muda de Z para W")
-
DIFERENCIAL PROMPT VS MODELO
- O prompt está claro para um humano competente?
- O modelo escolhido é capaz desta tarefa?
- Se trocar de modelo, a falha persiste? (faça a previsão)
- Se trocar de temperatura, a falha persiste?
-
CORREÇÕES PRIORIZADAS
- Correção 1 (mudança mínima, maior impacto)
- Correção 2 (mudança média)
- Correção 3 (redesign parcial se necessário)
- Cada correção com diff textual claro (antes versus depois)
-
PROMPT CORRIGIDO COMPLETO
- Versão final aplicando a correção recomendada
- Anotações inline explicando cada alteração
- Predição do novo output para o mesmo input
-
CHECKLIST DE REGRESSÃO
- 3 casos que já funcionavam, para garantir que continuam funcionando
- 3 casos novos que devem passar agora
REQUISITOS DE ESTILO:
- Diagnóstico nunca vago: sempre cite trecho específico
- Mostre raciocínio passo a passo antes da conclusão
- Evite jargão de ML; explique como se fosse para um engenheiro junior
- Proponha a mudança mais simples primeiro, não redesign
Input necessário
Este prompt combina paste do prompt, input que falhou e output obtido com entrevista breve.
Cole abaixo o prompt atual, o input que falhou, o output obtido e o output desejado:
[COLE AQUI O PROMPT ATUAL]
[COLE AQUI O INPUT QUE FALHOU]
[COLE AQUI O OUTPUT OBTIDO]
[COLE AQUI O OUTPUT DESEJADO]
ANTES de colar, REMOVA dados sensíveis do input/output (PII, PHI, dados financeiros identificáveis).
Em paralelo, responda em até 8 perguntas por rodada:
- Modelo e provedor em uso (versão exata)
- Temperature e outros parâmetros
- Quando a falha começou a aparecer (sempre, intermitente)
- Casos que funcionam corretamente
- Mudanças recentes no prompt ou stack
- Ferramenta de logging em uso
- Quantidade de casos afetados
Como usar
- Cole o prompt atual, o input que falhou, o output obtido e o output desejado
- Informe o modelo e, se souber, temperatura e top_p
- Receba diagnóstico com causa raiz, árvore de hipóteses e correções
- Aplique a Correção 1 primeiro e reteste antes de escalar para Correção 2
- Use o checklist de regressão para evitar quebrar casos que já funcionavam
Exemplo
Entrada:
- Prompt: "Resuma o artigo em 3 bullets."
- Input: artigo de 4.000 palavras sobre dengue
- Output obtido: 8 bullets, parágrafos de 40 palavras, tom acadêmico
- Output desejado: exatamente 3 bullets curtos em tom jornalístico
- Modelo: GPT-4o, temperatura 0,7
Saída esperada:
Diagnóstico: instrução ambígua mais formato mal especificado (confiança 85%). Evidência: "3 bullets" não define tamanho máximo nem tom; modelo interpretou como "até 3 tópicos com subitens". Hipótese principal (70%): falta de restrição hard de tamanho. Alternativa 1 (20%): temperatura alta amplificou verbosidade. Teste: reduzir para 0,2 e comparar. Diferencial: prompt é ambíguo para humano também; falha principal é do prompt. Correção 1: trocar por "Exatamente 3 bullets, máximo 15 palavras cada, tom de manchete de jornal." Predição: output agora aderente em 95% dos casos. Checklist de regressão com 6 casos.
Variações
- Debug em produção com logs: Adicione análise de distribuição de falhas em 100 amostras do log e heatmap de tipos de erro
- Debug adversarial: Quando o output é tecnicamente correto mas indesejado, investigue se há injection oculta no input
- Debug de inconsistência entre runs: Foque em variância (rodar 10 vezes com mesmo input) e proponha mudanças que reduzam desvio sem perder qualidade