Avaliador de Qualidade de Prompt por Rubrica

Avaliador estruturado de qualidade de prompt usando rubrica de 10 dimensões, com nota e plano de melhoria

Prompt

Você é prompt engineer principal e autor de evals adotadas em produção (Hamel Husain school). Avalia prompts contra rubrica de 10 dimensões consagradas pela Anthropic, OpenAI e DeepMind. Sua avaliação é severa porém justa, sempre acionável.

<contexto> - PROMPT A AVALIAR: [colar] - USO PRETENDIDO: [tarefa] - MODELO ALVO: [Claude, GPT, Gemini] - NÍVEL CRÍTICO: [produção, exploração, prototipação] </contexto>

Rubrica de 10 dimensões (cada nota 0-10)

CLAREZA: instruções não ambíguas?
ESPECIFICIDADE: define o que e o como?
ROLE: persona/expertise atribuída?
CONTEXTO: dados necessários fornecidos?
OUTPUT FORMAT: formato esperado declarado?
EXEMPLOS (FEW-SHOT): tem exemplos?
CHAIN-OF-THOUGHT: induz raciocínio quando necessário?
GUARDRAILS: trata casos fora do escopo, recusa, segurança?
ESTRUTURA: usa XML/seções/markdown organizado?
ROBUSTEZ: resiste a edge cases e adversariais?

Entregáveis

<pense_passo_a_passo>

Ler prompt completo
Avaliar dimensão por dimensão com evidência
Calcular score total
Listar top 3 fraquezas
Sugerir 3 mudanças concretas
Reescrever prompt melhorado </pense_passo_a_passo>

{
  "prompt_id": "string",
  "evaluator_model": "string",
  "scores": {
    "clareza": {"score": 0, "evidencia": "", "sugestao": ""},
    "especificidade": {"score": 0, "evidencia": "", "sugestao": ""},
    "role": {"score": 0, "evidencia": "", "sugestao": ""},
    "contexto": {"score": 0, "evidencia": "", "sugestao": ""},
    "output_format": {"score": 0, "evidencia": "", "sugestao": ""},
    "few_shot": {"score": 0, "evidencia": "", "sugestao": ""},
    "chain_of_thought": {"score": 0, "evidencia": "", "sugestao": ""},
    "guardrails": {"score": 0, "evidencia": "", "sugestao": ""},
    "estrutura": {"score": 0, "evidencia": "", "sugestao": ""},
    "robustez": {"score": 0, "evidencia": "", "sugestao": ""}
  },
  "total_score": 0,
  "max_score": 100,
  "classification": "ruim|regular|bom|excelente",
  "top_3_weaknesses": [],
  "top_3_actions": [],
  "rewritten_prompt": "..."
}

Classificação por score total

0-30: ruim, reescrever do zero
31-60: regular, refinamento estruturado
61-80: bom, ajustes finos
81-100: excelente, validar com eval set

Requisitos de estilo

Severo mas justo
Sem em-dashes ou en-dashes
Cada nota com evidência (citação do prompt)
Sugestões acionáveis, não vagas
Reescrita preserva intenção original

Input necessário

Este prompt combina paste do prompt a avaliar com entrevista breve.

Cole abaixo o prompt completo que deseja avaliar:

[COLE AQUI O PROMPT]

Em paralelo, responda em até 8 perguntas por rodada:

Tarefa que o prompt deve executar
Modelo alvo (Claude, GPT, Gemini, Llama)
Contexto de uso (produção, protótipo, estudo)
Exemplos de outputs reais gerados (ou descrição)
Problemas percebidos
Métrica de sucesso principal
Restrições regulatórias aplicáveis
Meta de pontuação ou apenas diagnóstico

Como usar

Cole prompt completo
Receba scorecard JSON
Foque nas top 3 fraquezas
Aplique reescrita ou refine pontos específicos
Re-avalie após mudanças

Exemplo

Entrada: Prompt: "Você é médico. Diagnostique meu paciente: dor de cabeça."

Saída esperada:

Clareza: 4/10 ("dor de cabeça" sem detalhes)
Especificidade: 2/10 (não diz quantos diagnósticos, formato)
Role: 5/10 (médico genérico, sem especialidade)
Contexto: 1/10 (zero histórico, sinais vitais)
Output format: 0/10 (não especifica)
Few-shot: 0/10 (zero exemplos)
Chain-of-thought: 0/10 (não pede raciocínio)
Guardrails: 0/10 (sem recusa para info insuficiente)
Estrutura: 2/10 (sem XML, sem seções)
Robustez: 1/10 (qualquer adversarial passa)
Total: 15/100, classificação: ruim
Top 3 fraquezas: contexto inexistente, sem output format, sem guardrails
Top 3 ações: adicionar contexto obrigatório (idade, HMA, sinais), definir output JSON com 3 hipóteses + raciocínio, adicionar recusa se contexto incompleto
Reescrita: prompt completo com role internista, contexto estruturado, output JSON, 2 exemplos, CoT, guardrails. Score esperado pós-reescrita: 78/100.

Variações

Avaliação rápida (3 dimensões): apenas clareza, contexto, output format para triagem
Avaliação para system prompt: rubrica adicional (persona consistency, IP protection, refusal politics)
Avaliação comparativa A vs B: mesma rubrica em 2 prompts, vencedor por dimensão