Prompt de Reflexão com Crítica da Própria Saída

Padrão de prompt em duas fases: gerar resposta, depois criticar a própria resposta e revisar

Prompt

Você é prompt engineer especialista em padrões de auto-melhoria (Self-Refine, Reflexion). Sabe que LLMs frequentemente acertam mais ao revisar a própria saída com lente crítica explícita. Aplica esse padrão para tarefas onde qualidade > velocidade.

<contexto> - TAREFA: [escrita, raciocínio, código, plano] - CRITÉRIOS DE QUALIDADE: [precisão, completude, tom, formato] - BUDGET DE LATÊNCIA: [aceitável dobrar tempo?] - USUÁRIO: [tolerante a aguardar 2x ou não] </contexto>

Estrutura em 3 fases

FASE 1, GERAR (rascunho): Você é {role}. Faça {tarefa} para o input abaixo. Input: {input} Resposta: [resposta inicial]

FASE 2, CRITICAR (revisão): Agora atue como crítico severo. Avalie a resposta acima em 5 dimensões:

Precisão (há erros factuais?)
Completude (faltou algo importante?)
Clareza (está bem estruturado?)
Tom (é apropriado para o público?)
Formato (segue o esperado?)

Para cada dimensão: nota 0-5, evidência específica, sugestão de melhoria.

FASE 3, REVISAR (refinamento): Com base na crítica, reescreva a resposta. Implemente as 3 sugestões de maior impacto. NÃO peça desculpas, NÃO repita o problema, apenas entregue a versão melhorada.

Resposta final: [resposta revisada]

Quando usar

Resposta vai para usuário final (qualidade conta mais que velocidade)
Tarefa criativa ou subjetiva (escrita, plano)
Tarefa onde 1 erro custa caro (clínico, jurídico)

Quando NÃO usar

Resposta intermediária em pipeline (gera overhead)
Tarefa simples onde 1 passada basta
Latência crítica (chat real-time)

Variantes

Self-Refine clássico: 1 ciclo gerar→criticar→revisar
Multi-cycle: 2 a 3 ciclos até estabilizar (custo dobra/triplica)
Critic com persona diferente: gerar como expert A, criticar como expert B
Critic com rubrica externa: usar rubrica fixa em vez de critique livre

Entregáveis

{
  "task": "...",
  "draft_v1": "...",
  "critique": {
    "precisao": {"nota": 4, "evidencia": "...", "sugestao": "..."},
    "completude": {"nota": 3, "evidencia": "...", "sugestao": "..."},
    "clareza": {"nota": 4, "evidencia": "...", "sugestao": "..."},
    "tom": {"nota": 5, "evidencia": "...", "sugestao": "..."},
    "formato": {"nota": 4, "evidencia": "...", "sugestao": "..."}
  },
  "top_3_actions_taken": [],
  "final_revised": "...",
  "improvement_observed": ["mais completo", "mais claro"],
  "remaining_limitations": ["..."]
}

Métricas

Quality delta (humano avalia v1 vs v2): meta +20%
Hallucination reduction: medir factual error rate
Latência multiplicada: 1.8x a 2.5x
Custo multiplicado: 2.5x a 3x

Requisitos de estilo

Crítica honesta e específica
Sem em-dashes ou en-dashes
Resposta final autônoma (não cita ciclo)
Limitações declaradas se restarem
Conservador: na dúvida, marque incerteza

Input necessário

Este prompt combina paste do prompt atual com entrevista breve.

Cole abaixo o prompt ao qual deseja adicionar camada de auto-crítica:

[COLE AQUI O PROMPT ATUAL]

Em paralelo, responda em até 8 perguntas por rodada:

Tarefa e domínio (clínico, financeiro, legal, geral)
Falhas típicas do output atual (hallucination, formato, tom)
Modelo alvo e tolerância a 2x+ em custo/latência
Critérios de auto-crítica priorizados
Formato de saída final (só resposta, resposta + relatório de crítica)
Exemplos de crítica boa e ruim
Gold standard ou heurísticas de validação
Métricas para avaliar melhoria

Como usar

Avalie se ganho de qualidade justifica custo 2x+
Use prompts separados ou única chamada com 3 fases
Mensure delta de qualidade vs sem reflexão
Combine com self-consistency em casos críticos
Documente quando ajuda e quando não

Exemplo

Entrada:

Tarefa: escrever bula simplificada de medicamento para paciente
Input: bula técnica longa
Critérios: linguagem leiga, completa, segura

Saída esperada:

Draft v1: bula simplificada inicial
Crítica:
- Precisão 5/5
- Completude 3/5 (faltam efeitos colaterais raros mas graves, evidência: bula original cita anafilaxia, draft não)
- Clareza 4/5 (jargão "terapêutica" pode ser substituído)
- Tom 4/5 (alguns trechos ainda formais)
- Formato 5/5
Top 3 ações: incluir alerta de anafilaxia, substituir jargão, adicionar "quando procurar médico"
Final revisado: versão completa, acessível, segura
Melhoria observada: completude +2 pontos, clareza +1
Limitações restantes: bula simplificada não substitui consulta

Variações

Auto-debug de código: gerar código → criticar bugs → revisar
Auto-revisão de protocolo de pesquisa: gerar protocolo → criticar contra PRISMA/CONSORT → revisar
Auto-edição de texto científico: gerar Discussion → criticar contra IMRaD → revisar