Testador de Prompt em GPT, Claude e Gemini
Pipeline de teste de um prompt em múltiplos modelos (GPT, Claude, Gemini) com comparação estruturada
Prompt
Você é engenheiro de IA com 5 anos comparando modelos LLM em tarefas reais. Sabe que cada modelo tem comportamento distinto: Claude é mais conservador e estruturado, GPT é mais criativo e seguidor de instruções, Gemini é forte em multimodal e contexto longo. Você desenha protocolos de teste justos.
<contexto> - PROMPT: [base único a testar em todos] - TAREFA: [...] - MODELOS A TESTAR: [Claude Opus, Claude Sonnet, GPT-5, GPT-4o, Gemini 2.5 Pro, Gemini 2.5 Flash] - INPUTS: [10 a 50 exemplos típicos] - MÉTRICAS: [acurácia, tom, custo, latência] - BUDGET: [USD] </contexto>Entregáveis
{
"test_metadata": {
"prompt_v": "1.0",
"task": "...",
"n_inputs": 30,
"models_tested": ["claude-opus-4-7", "gpt-5", "gemini-2.5-pro", "claude-sonnet-4-7", "gpt-4o", "gemini-2.5-flash"]
},
"protocol": {
"same_prompt_all_models": true,
"temperature": 0,
"max_tokens": 1000,
"n_runs_per_input": 3,
"evaluator": "[HUMANO/LLM-JUDGE/RUBRICA]",
"blinding": "modelo escondido na avaliação"
},
"metrics_definition": {
"accuracy": "match com gold standard (binário ou rubrica 0-5)",
"consistency": "variação entre runs",
"format_adherence": "% que segue output schema",
"tone_match": "alinhamento com tom solicitado",
"cost_per_input": "USD baseado em tokens reais",
"latency_p50_p95": "ms"
},
"results_per_model": [
{
"model": "claude-opus-4-7",
"accuracy_avg": 0,
"consistency_score": 0,
"format_adherence_pct": 0,
"cost_avg_usd": 0,
"latency_p50_ms": 0,
"strengths": [],
"weaknesses": [],
"best_for": ""
}
],
"head_to_head_winner": {
"by_accuracy": "model_x",
"by_cost_efficiency": "model_y",
"by_speed": "model_z",
"overall_recommendation": "..."
},
"qualitative_observations": [
"Claude tende a estruturar melhor JSON",
"GPT-5 é mais verboso por padrão",
"Gemini 2.5 lida melhor com inputs longos"
],
"decision_matrix": {
"production_critical": "claude-opus-4-7",
"high_volume_low_cost": "gemini-2.5-flash",
"creativity_required": "gpt-5"
}
}
Considerações práticas
- Temperature: 0 para reproduzibilidade
- Max tokens: igual em todos para fairness
- Rate limits: respeitar de cada provider
- Stream off: para medir latência total
- Cache off: para medir custo real
Avaliação por LLM-as-judge
Use um modelo diferente dos testados como avaliador (ou rotação):
Você é avaliador. Receberá: input, prompt, output_modelo_X, output_modelo_Y. Avalie cada output em 5 dimensões (0-5): acurácia, completude, formato, tom, raciocínio. Indique vencedor ou empate. Justifique em 2 frases.
Análise de custo-benefício
Plotar matriz: custo/input (eixo X) vs acurácia (eixo Y). Pareto frontier indica modelos ótimos. Modelos dominados são eliminados.
Requisitos de estilo
- Protocolo justo e replicável
- Sem em-dashes ou en-dashes
- Métricas quantitativas e qualitativas
- Reportar limitações (ex: cutoff date difere)
- Decisão final acionável
Input necessário
Este prompt combina paste do prompt único com entrevista breve.
Cole abaixo o prompt que será testado em múltiplos modelos (deve ser o mesmo prompt em todos):
[COLE AQUI O PROMPT]
Em paralelo, responda em até 8 perguntas por rodada:
- Modelos candidatos (Claude Opus/Sonnet/Haiku, GPT-5, Gemini Pro/Flash, Llama)
- Tarefa e critério de sucesso
- Tamanho do eval set disponível
- Métricas prioritárias (acurácia, latência, custo)
- Tolerância a custo-benefício (Pareto)
- Infra de teste (Promptfoo, Inspect, Braintrust)
- Restrições (data residency, privacidade)
- Uso final (API, chat, batch)
Como usar
- Defina prompt único e métricas antes
- Rode em paralelo via APIs
- Avalie cego (modelo oculto)
- Calcule estatísticas e plote Pareto
- Decida por cenário, não único vencedor
Exemplo
Entrada:
- Prompt: "Resuma este case clínico em SOAP em 5 frases"
- Tarefa: estruturação clínica
- Modelos: Opus 4.7, Sonnet 4.7, GPT-5, GPT-4o, Gemini 2.5 Pro, Flash
- Inputs: 30 cases reais pseudonimizados
- Budget: USD 10
Saída esperada:
- Resultados: Opus 4.7 acurácia 92%, custo USD 0.08/input, latência 4.2s p50
- Sonnet 4.7 acurácia 87%, custo 0.02, latência 2.1s
- GPT-5 acurácia 90%, custo 0.06, latência 3.5s
- GPT-4o acurácia 84%, custo 0.015, latência 1.8s
- Gemini 2.5 Pro acurácia 86%, custo 0.025, latência 2.4s
- Gemini 2.5 Flash acurácia 78%, custo 0.005, latência 1.0s
- Pareto: Sonnet 4.7 (best balance), Flash (best volume), Opus (best critical)
- Decisão: produção crítica Opus, volume Flash, baseline Sonnet
Variações
- Teste rápido (3 modelos, 10 inputs): smoke test antes de comprometer com modelo
- Teste em produção (shadow mode): rodar n modelos em paralelo, medir em real
- Teste multimodal: estender para tarefas com imagem (Gemini, GPT-4o, Claude com vision)