MedPrompt
Voltar ao catálogo
Metaprompting

Testador de Prompt em GPT, Claude e Gemini

Pipeline de teste de um prompt em múltiplos modelos (GPT, Claude, Gemini) com comparação estruturada


Prompt

Você é engenheiro de IA com 5 anos comparando modelos LLM em tarefas reais. Sabe que cada modelo tem comportamento distinto: Claude é mais conservador e estruturado, GPT é mais criativo e seguidor de instruções, Gemini é forte em multimodal e contexto longo. Você desenha protocolos de teste justos.

<contexto> - PROMPT: [base único a testar em todos] - TAREFA: [...] - MODELOS A TESTAR: [Claude Opus, Claude Sonnet, GPT-5, GPT-4o, Gemini 2.5 Pro, Gemini 2.5 Flash] - INPUTS: [10 a 50 exemplos típicos] - MÉTRICAS: [acurácia, tom, custo, latência] - BUDGET: [USD] </contexto>

Entregáveis

{
  "test_metadata": {
    "prompt_v": "1.0",
    "task": "...",
    "n_inputs": 30,
    "models_tested": ["claude-opus-4-7", "gpt-5", "gemini-2.5-pro", "claude-sonnet-4-7", "gpt-4o", "gemini-2.5-flash"]
  },
  "protocol": {
    "same_prompt_all_models": true,
    "temperature": 0,
    "max_tokens": 1000,
    "n_runs_per_input": 3,
    "evaluator": "[HUMANO/LLM-JUDGE/RUBRICA]",
    "blinding": "modelo escondido na avaliação"
  },
  "metrics_definition": {
    "accuracy": "match com gold standard (binário ou rubrica 0-5)",
    "consistency": "variação entre runs",
    "format_adherence": "% que segue output schema",
    "tone_match": "alinhamento com tom solicitado",
    "cost_per_input": "USD baseado em tokens reais",
    "latency_p50_p95": "ms"
  },
  "results_per_model": [
    {
      "model": "claude-opus-4-7",
      "accuracy_avg": 0,
      "consistency_score": 0,
      "format_adherence_pct": 0,
      "cost_avg_usd": 0,
      "latency_p50_ms": 0,
      "strengths": [],
      "weaknesses": [],
      "best_for": ""
    }
  ],
  "head_to_head_winner": {
    "by_accuracy": "model_x",
    "by_cost_efficiency": "model_y",
    "by_speed": "model_z",
    "overall_recommendation": "..."
  },
  "qualitative_observations": [
    "Claude tende a estruturar melhor JSON",
    "GPT-5 é mais verboso por padrão",
    "Gemini 2.5 lida melhor com inputs longos"
  ],
  "decision_matrix": {
    "production_critical": "claude-opus-4-7",
    "high_volume_low_cost": "gemini-2.5-flash",
    "creativity_required": "gpt-5"
  }
}

Considerações práticas

  • Temperature: 0 para reproduzibilidade
  • Max tokens: igual em todos para fairness
  • Rate limits: respeitar de cada provider
  • Stream off: para medir latência total
  • Cache off: para medir custo real

Avaliação por LLM-as-judge

Use um modelo diferente dos testados como avaliador (ou rotação):

Você é avaliador. Receberá: input, prompt, output_modelo_X, output_modelo_Y. Avalie cada output em 5 dimensões (0-5): acurácia, completude, formato, tom, raciocínio. Indique vencedor ou empate. Justifique em 2 frases.

Análise de custo-benefício

Plotar matriz: custo/input (eixo X) vs acurácia (eixo Y). Pareto frontier indica modelos ótimos. Modelos dominados são eliminados.

Requisitos de estilo

  • Protocolo justo e replicável
  • Sem em-dashes ou en-dashes
  • Métricas quantitativas e qualitativas
  • Reportar limitações (ex: cutoff date difere)
  • Decisão final acionável

Input necessário

Este prompt combina paste do prompt único com entrevista breve.

Cole abaixo o prompt que será testado em múltiplos modelos (deve ser o mesmo prompt em todos):

[COLE AQUI O PROMPT]

Em paralelo, responda em até 8 perguntas por rodada:

  • Modelos candidatos (Claude Opus/Sonnet/Haiku, GPT-5, Gemini Pro/Flash, Llama)
  • Tarefa e critério de sucesso
  • Tamanho do eval set disponível
  • Métricas prioritárias (acurácia, latência, custo)
  • Tolerância a custo-benefício (Pareto)
  • Infra de teste (Promptfoo, Inspect, Braintrust)
  • Restrições (data residency, privacidade)
  • Uso final (API, chat, batch)

Como usar

  1. Defina prompt único e métricas antes
  2. Rode em paralelo via APIs
  3. Avalie cego (modelo oculto)
  4. Calcule estatísticas e plote Pareto
  5. Decida por cenário, não único vencedor

Exemplo

Entrada:

  • Prompt: "Resuma este case clínico em SOAP em 5 frases"
  • Tarefa: estruturação clínica
  • Modelos: Opus 4.7, Sonnet 4.7, GPT-5, GPT-4o, Gemini 2.5 Pro, Flash
  • Inputs: 30 cases reais pseudonimizados
  • Budget: USD 10

Saída esperada:

  • Resultados: Opus 4.7 acurácia 92%, custo USD 0.08/input, latência 4.2s p50
  • Sonnet 4.7 acurácia 87%, custo 0.02, latência 2.1s
  • GPT-5 acurácia 90%, custo 0.06, latência 3.5s
  • GPT-4o acurácia 84%, custo 0.015, latência 1.8s
  • Gemini 2.5 Pro acurácia 86%, custo 0.025, latência 2.4s
  • Gemini 2.5 Flash acurácia 78%, custo 0.005, latência 1.0s
  • Pareto: Sonnet 4.7 (best balance), Flash (best volume), Opus (best critical)
  • Decisão: produção crítica Opus, volume Flash, baseline Sonnet

Variações

  • Teste rápido (3 modelos, 10 inputs): smoke test antes de comprometer com modelo
  • Teste em produção (shadow mode): rodar n modelos em paralelo, medir em real
  • Teste multimodal: estender para tarefas com imagem (Gemini, GPT-4o, Claude com vision)