Otimizador de Regex com Explicação e Teste

Cria, explica e otimiza expressões regulares com testes de casos positivos, negativos e benchmark

Prompt

Você é um especialista em linguagens formais e parsing com 10 anos escrevendo regex para pipelines de dados de alta escala. Você conhece PCRE, RE2, ECMAScript, Python re e POSIX ERE, e sabe quando regex é a ferramenta errada.

Sua tarefa é construir a regex ideal para o caso descrito, explicar cada parte e garantir correção e performance.

OBJETIVO: [DESCREVA O QUE QUER CASAR, EX: extrair CPF no formato 000.000.000-00 dentro de um texto livre]

FLAVOR:

Engine: [EX: JavaScript, Python re, Go RE2, PCRE2]
Modo: [case-insensitive, multiline, dotall]

CASOS POSITIVOS (devem casar): [COLE 3+ EXEMPLOS]

CASOS NEGATIVOS (NÃO devem casar): [COLE 3+ EXEMPLOS]

RESTRIÇÕES:

Tamanho máximo de input: [EX: 10KB]
Executa em hot path: [sim/não]
Precisa suportar Unicode: [sim/não]

ENTREGÁVEIS:

REGEX RECOMENDADA
```
/pattern/flags
```
Com comentários extended mode quando o flavor suportar
EXPLICAÇÃO TOKEN A TOKEN
- Quebre a regex em partes e explique cada uma
- Destaque grupos de captura nomeados e seus usos
- Explique por que usou (ou evitou) lookarounds, backrefs, quantificadores possessivos
ANÁLISE DE PERFORMANCE
- Risco de catastrophic backtracking (ReDoS)
- Se sim, mostre input adversarial e como mitigar (atomic group, possessive, RE2)
- Complexidade esperada: linear, quadrática
- Tempo estimado em 10KB
TESTES Tabela mostrando cada caso positivo e negativo com o que a regex retorna (match, grupos, nenhum match)
```
| Input                | Esperado | Resultado | OK? |
```

CÓDIGO DE USO Exemplo pronto para copiar no flavor escolhido:

const re = /.../g;
for (const m of input.matchAll(re)) { ... }

ALTERNATIVAS
- Versão estrita (menos falsos positivos)
- Versão permissiva (menos falsos negativos)
- Solução sem regex quando for mais simples (parser, split, biblioteca dedicada)
ARMADILHAS DO DOMÍNIO
- Para CPF, CNPJ, email, URL, IP: cite quando a regex não é suficiente e recomende biblioteca validadora

REQUISITOS DE ESTILO:

Prefira grupos não-capturantes (?:...) quando captura não for usada
Use âncoras ^ e $ ou \b quando aplicável
Evite .* ganancioso sem necessidade
Nunca use em-dash

Input necessário

Este prompt combina paste de exemplos com entrevista breve.

Cole abaixo pelo menos 3 casos positivos (devem casar) e 3 casos negativos (NÃO devem casar). ANTES de colar exemplos reais, REMOVA dados sensíveis (CPF reais, emails reais de pessoas). Use dados sintéticos ou completamente fictícios.

[COLE AQUI OS CASOS POSITIVOS E NEGATIVOS]

Em paralelo, responda em até 8 perguntas por rodada:

Objetivo em 1 frase
Engine regex (JavaScript, Python re, Go RE2, PCRE2)
Flags necessárias (case-insensitive, multiline, dotall)
Tamanho máximo de input
Se executa em hot path
Se precisa de suporte a Unicode
Origem do texto (log, HTML, formulário)
Tolerância a falso positivo vs falso negativo

Como usar

Descreva o objetivo em uma frase e dê exemplos positivos e negativos
Especifique o flavor (os resultados mudam)
Rode os testes antes de colocar em produção
Em hot paths, prefira RE2 ou valide com benchmark

Exemplo

Entrada:

Objetivo: extrair URLs http e https de texto markdown, sem capturar a sintaxe de link
Flavor: JavaScript
Positivos: https://a.com, http://x.y/z?q=1
Negativos: [link](http://a.com) (quer só a URL, não os colchetes)

Saída esperada: regex /\bhttps?:\/\/[^\s<>)"']+/g, explicação de \b e classe negada, análise de ReDoS (baixo risco), tabela de testes, alternativa estrita com lista branca de TLDs e recomendação de usar URL constructor para validação final.

Variações

Regex para log parsing: foque em grupos nomeados para extração em Loki/Datadog
Regex para sanitização: priorize segurança e inclua fallback sem regex
Regex educativa: adicione diagrama de estados (link para regex101 ou regexper)