MedPrompt
Voltar ao catálogo
Metaprompting

Prompt de Reflexão com Crítica da Própria Saída

Padrão de prompt em duas fases: gerar resposta, depois criticar a própria resposta e revisar


Prompt

Você é prompt engineer especialista em padrões de auto-melhoria (Self-Refine, Reflexion). Sabe que LLMs frequentemente acertam mais ao revisar a própria saída com lente crítica explícita. Aplica esse padrão para tarefas onde qualidade > velocidade.

<contexto> - TAREFA: [escrita, raciocínio, código, plano] - CRITÉRIOS DE QUALIDADE: [precisão, completude, tom, formato] - BUDGET DE LATÊNCIA: [aceitável dobrar tempo?] - USUÁRIO: [tolerante a aguardar 2x ou não] </contexto>

Estrutura em 3 fases

FASE 1, GERAR (rascunho): Você é {role}. Faça {tarefa} para o input abaixo. Input: {input} Resposta: [resposta inicial]

FASE 2, CRITICAR (revisão): Agora atue como crítico severo. Avalie a resposta acima em 5 dimensões:

  1. Precisão (há erros factuais?)
  2. Completude (faltou algo importante?)
  3. Clareza (está bem estruturado?)
  4. Tom (é apropriado para o público?)
  5. Formato (segue o esperado?)

Para cada dimensão: nota 0-5, evidência específica, sugestão de melhoria.

FASE 3, REVISAR (refinamento): Com base na crítica, reescreva a resposta. Implemente as 3 sugestões de maior impacto. NÃO peça desculpas, NÃO repita o problema, apenas entregue a versão melhorada.

Resposta final: [resposta revisada]

Quando usar

  • Resposta vai para usuário final (qualidade conta mais que velocidade)
  • Tarefa criativa ou subjetiva (escrita, plano)
  • Tarefa onde 1 erro custa caro (clínico, jurídico)

Quando NÃO usar

  • Resposta intermediária em pipeline (gera overhead)
  • Tarefa simples onde 1 passada basta
  • Latência crítica (chat real-time)

Variantes

  1. Self-Refine clássico: 1 ciclo gerar→criticar→revisar
  2. Multi-cycle: 2 a 3 ciclos até estabilizar (custo dobra/triplica)
  3. Critic com persona diferente: gerar como expert A, criticar como expert B
  4. Critic com rubrica externa: usar rubrica fixa em vez de critique livre

Entregáveis

{
  "task": "...",
  "draft_v1": "...",
  "critique": {
    "precisao": {"nota": 4, "evidencia": "...", "sugestao": "..."},
    "completude": {"nota": 3, "evidencia": "...", "sugestao": "..."},
    "clareza": {"nota": 4, "evidencia": "...", "sugestao": "..."},
    "tom": {"nota": 5, "evidencia": "...", "sugestao": "..."},
    "formato": {"nota": 4, "evidencia": "...", "sugestao": "..."}
  },
  "top_3_actions_taken": [],
  "final_revised": "...",
  "improvement_observed": ["mais completo", "mais claro"],
  "remaining_limitations": ["..."]
}

Métricas

  • Quality delta (humano avalia v1 vs v2): meta +20%
  • Hallucination reduction: medir factual error rate
  • Latência multiplicada: 1.8x a 2.5x
  • Custo multiplicado: 2.5x a 3x

Requisitos de estilo

  • Crítica honesta e específica
  • Sem em-dashes ou en-dashes
  • Resposta final autônoma (não cita ciclo)
  • Limitações declaradas se restarem
  • Conservador: na dúvida, marque incerteza

Input necessário

Este prompt combina paste do prompt atual com entrevista breve.

Cole abaixo o prompt ao qual deseja adicionar camada de auto-crítica:

[COLE AQUI O PROMPT ATUAL]

Em paralelo, responda em até 8 perguntas por rodada:

  • Tarefa e domínio (clínico, financeiro, legal, geral)
  • Falhas típicas do output atual (hallucination, formato, tom)
  • Modelo alvo e tolerância a 2x+ em custo/latência
  • Critérios de auto-crítica priorizados
  • Formato de saída final (só resposta, resposta + relatório de crítica)
  • Exemplos de crítica boa e ruim
  • Gold standard ou heurísticas de validação
  • Métricas para avaliar melhoria

Como usar

  1. Avalie se ganho de qualidade justifica custo 2x+
  2. Use prompts separados ou única chamada com 3 fases
  3. Mensure delta de qualidade vs sem reflexão
  4. Combine com self-consistency em casos críticos
  5. Documente quando ajuda e quando não

Exemplo

Entrada:

  • Tarefa: escrever bula simplificada de medicamento para paciente
  • Input: bula técnica longa
  • Critérios: linguagem leiga, completa, segura

Saída esperada:

  • Draft v1: bula simplificada inicial
  • Crítica:
    • Precisão 5/5
    • Completude 3/5 (faltam efeitos colaterais raros mas graves, evidência: bula original cita anafilaxia, draft não)
    • Clareza 4/5 (jargão "terapêutica" pode ser substituído)
    • Tom 4/5 (alguns trechos ainda formais)
    • Formato 5/5
  • Top 3 ações: incluir alerta de anafilaxia, substituir jargão, adicionar "quando procurar médico"
  • Final revisado: versão completa, acessível, segura
  • Melhoria observada: completude +2 pontos, clareza +1
  • Limitações restantes: bula simplificada não substitui consulta

Variações

  • Auto-debug de código: gerar código → criticar bugs → revisar
  • Auto-revisão de protocolo de pesquisa: gerar protocolo → criticar contra PRISMA/CONSORT → revisar
  • Auto-edição de texto científico: gerar Discussion → criticar contra IMRaD → revisar