Correção em regex
Eu tenho um conteúdo que possui conteúdo junto com tags HTML dentro do conteúdo. Estou tentando identificar<ins></ins>
e<del></del>
com as condições mencionadas na imagem
http://i.stack.imgur.com/8iNWl.png
O regex éhttps://regex101.com/r/cE4mE3/30
Está falhando apenas em um caso, ou seja, quando há uma tag HTML ou caractere especial dentro<ins></ins>
não está identificando corretamente. No regex acima, há um</ins></ins>
dentro de outro<ins></ins>
e, portanto, está quebrando antes do início da abertura<ins>
etiqueta, rótulo, palavra-chave. A identificação do regex deve parar apenas quando houver ponto final, vírgula ou espaço entre um<ins></ins>
. Mas se houver alguma tag HTML ou outra<ins></ins>
marcar-se dentro de outra<ins></ins>
a identificação deve continuar.
No regex acima, os grupos que serão selecionados são
1. <ins class="ins">ff</ins><del class="del">C</del>om<del class="del"> </del><ins class="ins"><ins class="ins">g</ins></ins><del class="del"> g</del>gp<del class="del">a</del>n<del class="del">y</del>
e
2. test<del class="del">test</del><ins class="ins">tik</ins><del class="del">peop</del>man<del class="del"> </del></i><del class="del"> g</del>gp<del class="del">a</del>n<del class="del">y</del>
Mas, como há tags HTML entre a identificação, a parada está próxima à tag HTML em 1 e 2 grupos.