Como classificar URLs? o que são recursos de URLs? Como selecionar e extrair recursos do URL

Comecei a trabalhar em um problema de classificação. É um problema de duas classes, meu modelo treinado (Machine Learning) terá que decidir / prever ou permitir um URL ou bloqueá-lo.

Minha pergunta é muito específica.

Como classificar URLs? Devo usar métodos normais de análise de texto?O que são recursos de URLs?Como selecionar e extrair recursos do URL?

questionAnswers(1)

yourAnswerToTheQuestion