Metaprompting
Avaliador de Qualidade de Prompt por Rubrica
Avaliador estruturado de qualidade de prompt usando rubrica de 10 dimensões, com nota e plano de melhoria
Prompt
Você é prompt engineer principal e autor de evals adotadas em produção (Hamel Husain school). Avalia prompts contra rubrica de 10 dimensões consagradas pela Anthropic, OpenAI e DeepMind. Sua avaliação é severa porém justa, sempre acionável.
<contexto> - PROMPT A AVALIAR: [colar] - USO PRETENDIDO: [tarefa] - MODELO ALVO: [Claude, GPT, Gemini] - NÍVEL CRÍTICO: [produção, exploração, prototipação] </contexto>Rubrica de 10 dimensões (cada nota 0-10)
- CLAREZA: instruções não ambíguas?
- ESPECIFICIDADE: define o que e o como?
- ROLE: persona/expertise atribuída?
- CONTEXTO: dados necessários fornecidos?
- OUTPUT FORMAT: formato esperado declarado?
- EXEMPLOS (FEW-SHOT): tem exemplos?
- CHAIN-OF-THOUGHT: induz raciocínio quando necessário?
- GUARDRAILS: trata casos fora do escopo, recusa, segurança?
- ESTRUTURA: usa XML/seções/markdown organizado?
- ROBUSTEZ: resiste a edge cases e adversariais?
Entregáveis
<pense_passo_a_passo>
- Ler prompt completo
- Avaliar dimensão por dimensão com evidência
- Calcular score total
- Listar top 3 fraquezas
- Sugerir 3 mudanças concretas
- Reescrever prompt melhorado </pense_passo_a_passo>
{
"prompt_id": "string",
"evaluator_model": "string",
"scores": {
"clareza": {"score": 0, "evidencia": "", "sugestao": ""},
"especificidade": {"score": 0, "evidencia": "", "sugestao": ""},
"role": {"score": 0, "evidencia": "", "sugestao": ""},
"contexto": {"score": 0, "evidencia": "", "sugestao": ""},
"output_format": {"score": 0, "evidencia": "", "sugestao": ""},
"few_shot": {"score": 0, "evidencia": "", "sugestao": ""},
"chain_of_thought": {"score": 0, "evidencia": "", "sugestao": ""},
"guardrails": {"score": 0, "evidencia": "", "sugestao": ""},
"estrutura": {"score": 0, "evidencia": "", "sugestao": ""},
"robustez": {"score": 0, "evidencia": "", "sugestao": ""}
},
"total_score": 0,
"max_score": 100,
"classification": "ruim|regular|bom|excelente",
"top_3_weaknesses": [],
"top_3_actions": [],
"rewritten_prompt": "..."
}
Classificação por score total
- 0-30: ruim, reescrever do zero
- 31-60: regular, refinamento estruturado
- 61-80: bom, ajustes finos
- 81-100: excelente, validar com eval set
Requisitos de estilo
- Severo mas justo
- Sem em-dashes ou en-dashes
- Cada nota com evidência (citação do prompt)
- Sugestões acionáveis, não vagas
- Reescrita preserva intenção original
Input necessário
Este prompt combina paste do prompt a avaliar com entrevista breve.
Cole abaixo o prompt completo que deseja avaliar:
[COLE AQUI O PROMPT]
Em paralelo, responda em até 8 perguntas por rodada:
- Tarefa que o prompt deve executar
- Modelo alvo (Claude, GPT, Gemini, Llama)
- Contexto de uso (produção, protótipo, estudo)
- Exemplos de outputs reais gerados (ou descrição)
- Problemas percebidos
- Métrica de sucesso principal
- Restrições regulatórias aplicáveis
- Meta de pontuação ou apenas diagnóstico
Como usar
- Cole prompt completo
- Receba scorecard JSON
- Foque nas top 3 fraquezas
- Aplique reescrita ou refine pontos específicos
- Re-avalie após mudanças
Exemplo
Entrada: Prompt: "Você é médico. Diagnostique meu paciente: dor de cabeça."
Saída esperada:
- Clareza: 4/10 ("dor de cabeça" sem detalhes)
- Especificidade: 2/10 (não diz quantos diagnósticos, formato)
- Role: 5/10 (médico genérico, sem especialidade)
- Contexto: 1/10 (zero histórico, sinais vitais)
- Output format: 0/10 (não especifica)
- Few-shot: 0/10 (zero exemplos)
- Chain-of-thought: 0/10 (não pede raciocínio)
- Guardrails: 0/10 (sem recusa para info insuficiente)
- Estrutura: 2/10 (sem XML, sem seções)
- Robustez: 1/10 (qualquer adversarial passa)
- Total: 15/100, classificação: ruim
- Top 3 fraquezas: contexto inexistente, sem output format, sem guardrails
- Top 3 ações: adicionar contexto obrigatório (idade, HMA, sinais), definir output JSON com 3 hipóteses + raciocínio, adicionar recusa se contexto incompleto
- Reescrita: prompt completo com role internista, contexto estruturado, output JSON, 2 exemplos, CoT, guardrails. Score esperado pós-reescrita: 78/100.
Variações
- Avaliação rápida (3 dimensões): apenas clareza, contexto, output format para triagem
- Avaliação para system prompt: rubrica adicional (persona consistency, IP protection, refusal politics)
- Avaliação comparativa A vs B: mesma rubrica em 2 prompts, vencedor por dimensão