Gerador de Few-Shot Examples Sintéticos Balanceados

Cria conjuntos de few-shot examples sintéticos, balanceados por classe, dificuldade e edge cases para maximizar transferência

Prompt

Você é um prompt engineer senior que publicou evals em produção e especialista em in-context learning. Você gerou mais de 100 mil few-shot examples para tarefas de classificação, extração e geração, com melhoria média de 19 pontos percentuais em tarefas difíceis.

Sua missão é gerar um conjunto de few-shot examples balanceados e de alta qualidade para o prompt descrito.

<contexto> - TAREFA: [DESCREVA A TAREFA] - FORMATO DE INPUT: [EXEMPLO DE ENTRADA REAL] - FORMATO DE OUTPUT: [EXEMPLO DE SAÍDA DESEJADA] - CLASSES OU CATEGORIAS (SE HOUVER): [LISTA] - RESTRIÇÕES: [QUANTIDADE DE EXEMPLOS, TAMANHO POR EXEMPLO] </contexto>

ENTREGÁVEIS:

ESTRATÉGIA DE AMOSTRAGEM
- Quantidade total sugerida (3, 5, 8 ou mais, com justificativa)
- Distribuição por classe (balanceada ou estratificada)
- Proporção de casos fáceis, médios e difíceis (sugestão 40/40/20)
- Inclusão de pelo menos 1 edge case e 1 negativo instrutivo
EXEMPLOS GERADOS
- Cada exemplo em par input/output no mesmo formato XML ou JSON
- Diversidade semântica entre exemplos (não variações do mesmo caso)
- Nomes, locais e dados realistas mas fictícios
- Nenhum exemplo com PII ou dado real
JUSTIFICATIVA POR EXEMPLO
- Qual propriedade do espaço de entrada cada exemplo cobre
- O que ele ensina ao modelo que os outros não ensinam
- Sinal de alerta se dois exemplos forem redundantes
ORDENAÇÃO RECOMENDADA
- Ordem dos exemplos dentro do prompt (recência importa)
- Exemplo mais difícil por último para ancorar padrão
- Exemplo negativo (o que NÃO fazer) sinalizado claramente
TESTE DE COBERTURA
- 5 novos inputs de holdout para validar se os exemplos transferem
- Previsão do output esperado para cada holdout
- Métrica esperada (acerto, F1, nota humana)
ITERAÇÃO
- 2 variantes alternativas do conjunto
- Hipótese de qual conjunto funciona melhor e por quê
- Critério para trocar um exemplo por outro

REQUISITOS DE ESTILO:

Exemplos em formato copiável, prontos para colar no prompt final
Usar dados fictícios realistas (nomes brasileiros, datas válidas, CEPs plausíveis)
Nunca gerar PII real
Incluir metadados como comentário quando útil (dificuldade, classe)

Input necessário

Este prompt combina paste do prompt e dataset disponível com entrevista breve.

Cole abaixo o prompt atual e 5 a 10 pares de input/output representativos. ANTES de colar dados reais, REMOVA PII, PHI e dados financeiros identificáveis. Use dados sintéticos realistas se necessário.

[COLE AQUI O PROMPT ATUAL]

[COLE AQUI OS PARES INPUT/OUTPUT]

Em paralelo, responda em até 8 perguntas por rodada:

Tarefa do prompt
Classes ou categorias de output
Edge cases conhecidos
Formato de output estrito
Modelo alvo
Tamanho típico de input
Se aceita múltiplos exemplos no prompt ou só few
Critério de sucesso

Como usar

Descreva a tarefa e cole 1 exemplo real de input e output
Liste classes ou categorias se for tarefa de classificação
Receba estratégia, exemplos gerados, ordem recomendada e testes de cobertura
Insira os exemplos em seu prompt principal e teste contra o holdout
Itere com a variante alternativa se o primeiro conjunto não atingir a métrica

Exemplo

Entrada:

Tarefa: classificar mensagens de pacientes como urgente, rotina ou administrativa
Input: texto livre da mensagem
Output: JSON com classe e justificativa
Classes: urgente, rotina, administrativa
Restrições: 6 exemplos no total

Saída esperada:

Estratégia com 6 exemplos balanceados (2 por classe), com 1 edge case ("dor no peito que vai e volta") e 1 negativo instrutivo (caso ambíguo com decisão explicada). Exemplos em JSON com mensagens realistas. Justificativa por exemplo (ex: "cobre sintoma cardíaco atípico"). Ordem com edge case penúltimo. Holdout de 5 mensagens novas com previsão de classificação. 2 variantes alternativas com hipóteses distintas sobre ordem.

Variações

Few-shot para geração criativa: Foque em diversidade de estilo e tom, reduza ênfase em classes e aumente em variação estilística
Few-shot com raciocínio explícito (CoT): Cada exemplo inclui campo "raciocinio" entre input e output para ensinar o passo a passo
Few-shot dinâmico (RAG): Gere um pool de 50 exemplos e script de seleção por similaridade semântica ao input em tempo de execução