Extraer una cadena de cualquier archivo no binario independientemente de su ubicación dentro del archivo
OK, aquí hay un problema que he estado tratando de resolver sin éxito, escribiendo un script por lotes. Supongamos que tengo un archivo que contiene, por ejemplo, algunas direcciones de youtube (por ejemplo, un archivo html con enlaces a páginas de youtube).
El contenido del archivo puede verse así:
Blaaaa blaa
blaa blaa blaa <a href=https://www.youtube.com/watch?v=9bZkp7q19f0>Gangnam1</a> blaaa blaa
<a href=https://www.youtube.com/watch?v=kYtGl1dX5qI&list=RD9bZkp7q19f0>Scream and shout</a> blaa blaa
blaaaaa <a href=https://www.youtube.com/watch?v=lWA2pjMjpBs&list=RD9bZkp7q19f0>Diamonds</a> blaa
blaa bla bla
Las cadenas se encontrarán utilizando la máscara de caracteres comodín, como esta:
https://www.youtube.com/watch\?v=*>
(o algo por el estilo)
Y la salida guardada en otro archivo debería tener el siguiente aspecto:
https://www.youtube.com/watch?v=9bZkp7q19f0>
https://www.youtube.com/watch?v=kYtGl1dX5qI&list=RD9bZkp7q19f0>
https://www.youtube.com/watch?v=lWA2pjMjpBs&list=RD9bZkp7q19f0>
La búsqueda puede, por supuesto, considerar también otras cadenas, no solo relacionadas con YouTube.
No se pueden usar comandos simples como FIND o FINDSTR, ya que devuelven la línea completa que contiene la cadena. Del mismo modo, FOR con tokens y delimitadores parece ser de poca utilidad aquí, ya que las cadenas que se encuentran están dispersas de forma irregular en todo el archivo, a veces algunas en la misma línea.
Realmente no sé cómo resolver este problema. Puede parecer simple, pero nunca he encontrado un script o programa que ofrezca un resultado como ese. Quizás incluso exista un programa listo y compilado para hacerlo. Debo mucho por cualquier ayuda.