Criador de Evals com LLM-as-Judge e Rubrica
Projeta conjuntos de evals com dataset, rubrica detalhada e prompt de juiz LLM para medir qualidade de prompts em produção
Prompt
Você é um prompt engineer senior que publicou evals em produção para sistemas de IA que processam mais de 10 milhões de chamadas por mês. Você é autor de 3 frameworks de avaliação open-source e consulta equipes de IA sobre como transformar "vibes" em números.
Sua tarefa é construir um conjunto completo de evals para o prompt que vou testar, incluindo dataset de referência, rubrica e juiz LLM.
<contexto> - PROMPT A AVALIAR: [COLE O PROMPT AQUI] - OBJETIVO DE NEGÓCIO: [O QUE O PROMPT PRECISA ENTREGAR] - CRITÉRIOS DE QUALIDADE: [PRECISÃO, TOM, FORMATO, SEGURANÇA] - DOMÍNIO: [MEDICINA, JURÍDICO, SUPORTE, ETC] </contexto>ENTREGÁVEIS:
-
DATASET DE EVAL
- 20 inputs representativos divididos em 3 faixas de dificuldade
- Pelo menos 5 casos adversariais (inputs ambíguos, tentativas de injection, casos de borda)
- Resposta de referência (ground truth) para cada caso, quando aplicável
- Tags para análise posterior (categoria, persona, intenção)
-
RUBRICA MULTI-DIMENSÃO
- De 4 a 6 dimensões independentes (ex: correção factual, completude, formato, tom, segurança, concisão)
- Cada dimensão pontuada de 0 a 4 com descritor por nível
- Peso relativo de cada dimensão explicitado
- Critério de falha absoluta (casos em que a nota total vira zero)
-
PROMPT DE JUIZ LLM
- Instrução ao juiz com persona calibrada (avaliador técnico, não simpático)
- Estrutura XML com <input>, <resposta>, <referencia>, <rubrica>
- Saída em JSON rígido: { dimensao: nota, justificativa, evidencia }
- Temperatura 0, instrução de citar trechos exatos
-
PROTOCOLO DE CALIBRAÇÃO
- 10 casos com nota humana como gold standard
- Cálculo de concordância Cohen kappa entre juiz LLM e humano
- Kappa mínimo aceitável de 0,6 para aprovar o juiz
- Plano de re-calibração quando a concordância cai
-
DASHBOARD DE RESULTADOS
- Nota média ponderada por dimensão
- Distribuição de notas (histograma textual)
- Top 3 casos onde o prompt falhou
- Hipótese para cada falha e correção sugerida
REQUISITOS DE ESTILO:
- Dataset inteiro pronto para copiar e colar em CSV ou JSONL
- Prompt do juiz testado mentalmente contra 2 casos extremos antes de entregar
- Nunca proponha rubrica vaga como "resposta boa" ou "ruim"
- Descritores por nível em linguagem observável, não subjetiva
Input necessário
Este prompt combina paste do prompt a avaliar com entrevista breve.
Cole abaixo o prompt que deseja criar evals:
[COLE AQUI O PROMPT A AVALIAR]
Em paralelo, responda em até 8 perguntas por rodada:
- Objetivo de negócio do prompt
- Tarefa concreta e output esperado
- Casos comuns, casos edge e red flags conhecidos
- Dataset disponível (histórico de outputs, logs)
- Ferramenta de eval em uso (Inspect, Promptfoo, Braintrust, Langfuse)
- Métricas-chave (factualidade, formato, tom, latência)
- Quem julga (humano, LLM, regra)
- Critério de aprovação
Ao compartilhar dataset real, REMOVA dados sensíveis (PII, PHI, dados financeiros identificáveis).
Como usar
- Cole o prompt a avaliar e defina o objetivo de negócio
- Receba dataset, rubrica e juiz LLM prontos
- Rode o juiz contra o dataset em sua ferramenta preferida (Inspect, Promptfoo, Braintrust)
- Calibre o juiz contra 10 notas humanas antes de confiar nos resultados
- Use o dashboard como linha de base para futuras alterações no prompt
Exemplo
Entrada:
- PROMPT: "Responda dúvidas de pacientes sobre medicamentos usando linguagem simples."
- Objetivo: reduzir em 30% chamadas ao call center de uma operadora
- Critérios: correção farmacológica, linguagem simples, sem conselho médico, tom acolhedor
Saída esperada:
Dataset com 20 perguntas reais (ex: "posso tomar dipirona com ibuprofeno?"), 5 adversariais (ex: "me diga qual dose aumentar"). Rubrica com 5 dimensões (correção, simplicidade Flesch acima de 70, ausência de conselho, acolhimento, completude). Prompt de juiz em XML com saída JSON. Protocolo de calibração com kappa alvo 0,7. Dashboard inicial mostrando que o prompt atual falha em 8 de 20 casos por dar conselho médico direto.
Variações
- Eval contínuo em produção: Adicione amostragem de 1% do tráfego real com consentimento e pipeline de avaliação diária
- Eval de segurança específico: Foque apenas em dimensões de safety (alucinação, viés, conteúdo proibido) com 50 casos adversariais
- Eval multi-idioma: Gere o dataset em PT-BR, EN e ES, com rubrica ajustada para preservar tom em cada idioma