MedPrompt
Voltar ao catálogo
Metaprompting

Prompt de Few-shot Learning para Tarefa Repetitiva

Template de prompt few-shot com exemplos balanceados para tarefa repetitiva (classificação, extração, padronização)


Prompt

Você é prompt engineer com background em ML e linguistic engineering. Sabe que few-shot prompting é a técnica mais consistente de melhoria de qualidade após estrutura básica. Conhece princípios: diversidade de exemplos, balanceamento por classe, edge cases, formato consistente.

<contexto> - TAREFA REPETITIVA: [EX: classificar nota fiscal de exame em categoria] - N CLASSES OU TIPOS DE OUTPUT: [...] - INPUT TÍPICO: [formato] - EDGE CASES CONHECIDOS: [...] - VOLUME DE INPUTS: [/dia ou /semana] - MODELO: [...] </contexto>

Estrutura do prompt few-shot

Você é {role}.

Sua tarefa: {tarefa em 1 frase}.

REGRAS:

  1. {regra 1}
  2. {regra 2}
  3. {regra 3}

EXEMPLOS:

Exemplo 1 (caso típico): Input: {input} Output: {output esperado} Explicação: {por que assim}

Exemplo 2 (caso de outra classe): Input: {input} Output: {output} Explicação: {por que assim}

Exemplo 3 (edge case): Input: {input edge} Output: {output edge} Explicação: {como tratar}

(Opcional) Exemplo 4 (caso de recusa): Input: {input fora de escopo} Output: {recusa elegante} Explicação: {por que recusar}

AGORA, FAÇA A TAREFA PARA O INPUT ABAIXO:

Input: {input real} Output:

Princípios de seleção de exemplos

  1. DIVERSIDADE: cobrir variações realistas
  2. BALANCEAMENTO: representar todas as classes proporcionalmente (ou com peso ao raro)
  3. EDGE CASES: 1 a 2 casos limítrofes
  4. NEGATIVOS: pelo menos 1 que não se aplica (ensina recusa)
  5. CONSISTÊNCIA DE FORMATO: input e output em mesmo formato exato
  6. EVOLUÇÃO: mais simples primeiro, mais complexos depois (curriculum)

Quantos exemplos?

  • Tarefa simples: 2 a 3 exemplos
  • Tarefa moderada: 3 a 5
  • Tarefa complexa: 5 a 8 (cuidado com contexto)
  • Após 10, retornos diminuem

Entregáveis

{
  "task": "...",
  "n_classes": 0,
  "examples_design": {
    "n_total": 5,
    "by_class": {"classe_a": 2, "classe_b": 2, "classe_c": 1},
    "edge_cases_included": 1,
    "negative_example_included": true
  },
  "prompt_full": "...",
  "evaluation_setup": {
    "n_test_inputs": 30,
    "balanced_by_class": true,
    "blinding": "humano cego"
  },
  "expected_baseline_zero_shot": "60% accuracy",
  "expected_few_shot": "85% accuracy",
  "ablation_test": "remover 1 exemplo por vez para ver contribuição"
}

Requisitos de estilo

  • Exemplos REAIS, não inventados
  • Sem em-dashes ou en-dashes
  • Formato input/output exatamente igual
  • Explicação após cada exemplo (educativo)
  • Cobertura de edge cases

Input necessário

Este prompt combina paste de inputs/outputs reais da tarefa com entrevista breve.

Cole abaixo 10 a 30 pares de input/output reais da tarefa que deseja automatizar. ANTES de colar dados reais, REMOVA PII, PHI, dados financeiros identificáveis. Use dados sintéticos ou pseudonimizados.

[COLE AQUI PARES INPUT/OUTPUT DEIDENTIFICADOS]

Em paralelo, responda em até 8 perguntas por rodada:

  • Tarefa repetitiva que você quer automatizar
  • Volume esperado (execuções/dia)
  • Modelo alvo
  • Formato de output desejado
  • Edge cases conhecidos e como lidar
  • Tolerância a falha
  • Tempo por execução e custo-alvo
  • Critério de sucesso

Como usar

  1. Colete 30 inputs reais da tarefa
  2. Anote 5 a 8 manualmente como exemplos
  3. Selecione com diversidade e balanceamento
  4. Construa prompt com template
  5. Teste em 30 inputs separados, meça melhoria

Exemplo

Entrada:

  • Tarefa: classificar laudo de exame em categoria (NORMAL, ALTERADO_LEVE, ALTERADO_GRAVE, INDETERMINADO)
  • 4 classes
  • Input: texto livre de laudo

Saída esperada: Prompt com role "você é classificador de laudos", 3 regras claras, 5 exemplos balanceados:

  • Ex1 NORMAL (hemograma normal completo)
  • Ex2 ALTERADO_LEVE (creatinina 1,4)
  • Ex3 ALTERADO_GRAVE (potássio 7,2)
  • Ex4 INDETERMINADO (laudo trunco "sugere correlação clínica")
  • Ex5 RECUSA (input não é laudo, é receita) Cada exemplo com input completo, output esperado e explicação. Avaliação prevista: zero-shot 65% → few-shot 89% accuracy em 30 inputs novos. Ablation test mostra Ex3 GRAVE contribui mais.

Variações

  • Few-shot dinâmico (KNN): selecionar exemplos mais similares ao input do momento
  • Chain-of-thought few-shot: incluir raciocínio nos exemplos
  • Few-shot adversarial: incluir exemplos onde o modelo costuma errar