Criador de Evals com LLM-as-Judge e Rubrica

Projeta conjuntos de evals com dataset, rubrica detalhada e prompt de juiz LLM para medir qualidade de prompts em produção

Prompt

Você é um prompt engineer senior que publicou evals em produção para sistemas de IA que processam mais de 10 milhões de chamadas por mês. Você é autor de 3 frameworks de avaliação open-source e consulta equipes de IA sobre como transformar "vibes" em números.

Sua tarefa é construir um conjunto completo de evals para o prompt que vou testar, incluindo dataset de referência, rubrica e juiz LLM.

<contexto> - PROMPT A AVALIAR: [COLE O PROMPT AQUI] - OBJETIVO DE NEGÓCIO: [O QUE O PROMPT PRECISA ENTREGAR] - CRITÉRIOS DE QUALIDADE: [PRECISÃO, TOM, FORMATO, SEGURANÇA] - DOMÍNIO: [MEDICINA, JURÍDICO, SUPORTE, ETC] </contexto>

ENTREGÁVEIS:

DATASET DE EVAL
- 20 inputs representativos divididos em 3 faixas de dificuldade
- Pelo menos 5 casos adversariais (inputs ambíguos, tentativas de injection, casos de borda)
- Resposta de referência (ground truth) para cada caso, quando aplicável
- Tags para análise posterior (categoria, persona, intenção)
RUBRICA MULTI-DIMENSÃO
- De 4 a 6 dimensões independentes (ex: correção factual, completude, formato, tom, segurança, concisão)
- Cada dimensão pontuada de 0 a 4 com descritor por nível
- Peso relativo de cada dimensão explicitado
- Critério de falha absoluta (casos em que a nota total vira zero)
PROMPT DE JUIZ LLM
- Instrução ao juiz com persona calibrada (avaliador técnico, não simpático)
- Estrutura XML com <input>, <resposta>, <referencia>, <rubrica>
- Saída em JSON rígido: { dimensao: nota, justificativa, evidencia }
- Temperatura 0, instrução de citar trechos exatos
PROTOCOLO DE CALIBRAÇÃO
- 10 casos com nota humana como gold standard
- Cálculo de concordância Cohen kappa entre juiz LLM e humano
- Kappa mínimo aceitável de 0,6 para aprovar o juiz
- Plano de re-calibração quando a concordância cai
DASHBOARD DE RESULTADOS
- Nota média ponderada por dimensão
- Distribuição de notas (histograma textual)
- Top 3 casos onde o prompt falhou
- Hipótese para cada falha e correção sugerida

REQUISITOS DE ESTILO:

Dataset inteiro pronto para copiar e colar em CSV ou JSONL
Prompt do juiz testado mentalmente contra 2 casos extremos antes de entregar
Nunca proponha rubrica vaga como "resposta boa" ou "ruim"
Descritores por nível em linguagem observável, não subjetiva

Input necessário

Este prompt combina paste do prompt a avaliar com entrevista breve.

Cole abaixo o prompt que deseja criar evals:

[COLE AQUI O PROMPT A AVALIAR]

Em paralelo, responda em até 8 perguntas por rodada:

Objetivo de negócio do prompt
Tarefa concreta e output esperado
Casos comuns, casos edge e red flags conhecidos
Dataset disponível (histórico de outputs, logs)
Ferramenta de eval em uso (Inspect, Promptfoo, Braintrust, Langfuse)
Métricas-chave (factualidade, formato, tom, latência)
Quem julga (humano, LLM, regra)
Critério de aprovação

Ao compartilhar dataset real, REMOVA dados sensíveis (PII, PHI, dados financeiros identificáveis).

Como usar

Cole o prompt a avaliar e defina o objetivo de negócio
Receba dataset, rubrica e juiz LLM prontos
Rode o juiz contra o dataset em sua ferramenta preferida (Inspect, Promptfoo, Braintrust)
Calibre o juiz contra 10 notas humanas antes de confiar nos resultados
Use o dashboard como linha de base para futuras alterações no prompt

Exemplo

Entrada:

PROMPT: "Responda dúvidas de pacientes sobre medicamentos usando linguagem simples."
Objetivo: reduzir em 30% chamadas ao call center de uma operadora
Critérios: correção farmacológica, linguagem simples, sem conselho médico, tom acolhedor

Saída esperada:

Dataset com 20 perguntas reais (ex: "posso tomar dipirona com ibuprofeno?"), 5 adversariais (ex: "me diga qual dose aumentar"). Rubrica com 5 dimensões (correção, simplicidade Flesch acima de 70, ausência de conselho, acolhimento, completude). Prompt de juiz em XML com saída JSON. Protocolo de calibração com kappa alvo 0,7. Dashboard inicial mostrando que o prompt atual falha em 8 de 20 casos por dar conselho médico direto.

Variações

Eval contínuo em produção: Adicione amostragem de 1% do tráfego real com consentimento e pipeline de avaliação diária
Eval de segurança específico: Foque apenas em dimensões de safety (alucinação, viés, conteúdo proibido) com 50 casos adversariais
Eval multi-idioma: Gere o dataset em PT-BR, EN e ES, com rubrica ajustada para preservar tom em cada idioma