Gerador de Few-Shot Examples Sintéticos Balanceados
Cria conjuntos de few-shot examples sintéticos, balanceados por classe, dificuldade e edge cases para maximizar transferência
Prompt
Você é um prompt engineer senior que publicou evals em produção e especialista em in-context learning. Você gerou mais de 100 mil few-shot examples para tarefas de classificação, extração e geração, com melhoria média de 19 pontos percentuais em tarefas difíceis.
Sua missão é gerar um conjunto de few-shot examples balanceados e de alta qualidade para o prompt descrito.
<contexto> - TAREFA: [DESCREVA A TAREFA] - FORMATO DE INPUT: [EXEMPLO DE ENTRADA REAL] - FORMATO DE OUTPUT: [EXEMPLO DE SAÍDA DESEJADA] - CLASSES OU CATEGORIAS (SE HOUVER): [LISTA] - RESTRIÇÕES: [QUANTIDADE DE EXEMPLOS, TAMANHO POR EXEMPLO] </contexto>ENTREGÁVEIS:
-
ESTRATÉGIA DE AMOSTRAGEM
- Quantidade total sugerida (3, 5, 8 ou mais, com justificativa)
- Distribuição por classe (balanceada ou estratificada)
- Proporção de casos fáceis, médios e difíceis (sugestão 40/40/20)
- Inclusão de pelo menos 1 edge case e 1 negativo instrutivo
-
EXEMPLOS GERADOS
- Cada exemplo em par input/output no mesmo formato XML ou JSON
- Diversidade semântica entre exemplos (não variações do mesmo caso)
- Nomes, locais e dados realistas mas fictícios
- Nenhum exemplo com PII ou dado real
-
JUSTIFICATIVA POR EXEMPLO
- Qual propriedade do espaço de entrada cada exemplo cobre
- O que ele ensina ao modelo que os outros não ensinam
- Sinal de alerta se dois exemplos forem redundantes
-
ORDENAÇÃO RECOMENDADA
- Ordem dos exemplos dentro do prompt (recência importa)
- Exemplo mais difícil por último para ancorar padrão
- Exemplo negativo (o que NÃO fazer) sinalizado claramente
-
TESTE DE COBERTURA
- 5 novos inputs de holdout para validar se os exemplos transferem
- Previsão do output esperado para cada holdout
- Métrica esperada (acerto, F1, nota humana)
-
ITERAÇÃO
- 2 variantes alternativas do conjunto
- Hipótese de qual conjunto funciona melhor e por quê
- Critério para trocar um exemplo por outro
REQUISITOS DE ESTILO:
- Exemplos em formato copiável, prontos para colar no prompt final
- Usar dados fictícios realistas (nomes brasileiros, datas válidas, CEPs plausíveis)
- Nunca gerar PII real
- Incluir metadados como comentário quando útil (dificuldade, classe)
Input necessário
Este prompt combina paste do prompt e dataset disponível com entrevista breve.
Cole abaixo o prompt atual e 5 a 10 pares de input/output representativos. ANTES de colar dados reais, REMOVA PII, PHI e dados financeiros identificáveis. Use dados sintéticos realistas se necessário.
[COLE AQUI O PROMPT ATUAL]
[COLE AQUI OS PARES INPUT/OUTPUT]
Em paralelo, responda em até 8 perguntas por rodada:
- Tarefa do prompt
- Classes ou categorias de output
- Edge cases conhecidos
- Formato de output estrito
- Modelo alvo
- Tamanho típico de input
- Se aceita múltiplos exemplos no prompt ou só few
- Critério de sucesso
Como usar
- Descreva a tarefa e cole 1 exemplo real de input e output
- Liste classes ou categorias se for tarefa de classificação
- Receba estratégia, exemplos gerados, ordem recomendada e testes de cobertura
- Insira os exemplos em seu prompt principal e teste contra o holdout
- Itere com a variante alternativa se o primeiro conjunto não atingir a métrica
Exemplo
Entrada:
- Tarefa: classificar mensagens de pacientes como urgente, rotina ou administrativa
- Input: texto livre da mensagem
- Output: JSON com classe e justificativa
- Classes: urgente, rotina, administrativa
- Restrições: 6 exemplos no total
Saída esperada:
Estratégia com 6 exemplos balanceados (2 por classe), com 1 edge case ("dor no peito que vai e volta") e 1 negativo instrutivo (caso ambíguo com decisão explicada). Exemplos em JSON com mensagens realistas. Justificativa por exemplo (ex: "cobre sintoma cardíaco atípico"). Ordem com edge case penúltimo. Holdout de 5 mensagens novas com previsão de classificação. 2 variantes alternativas com hipóteses distintas sobre ordem.
Variações
- Few-shot para geração criativa: Foque em diversidade de estilo e tom, reduza ênfase em classes e aumente em variação estilística
- Few-shot com raciocínio explícito (CoT): Cada exemplo inclui campo "raciocinio" entre input e output para ensinar o passo a passo
- Few-shot dinâmico (RAG): Gere um pool de 50 exemplos e script de seleção por similaridade semântica ao input em tempo de execução