Sites que são particularmente desafiadores para rastrear e raspar? [fechadas]
Estou interessado em sites voltados ao público (nada por trás de um login / autenticação) com coisas como:
Alto uso de redirecionamentos internos 301 e 302Medidas anti-raspagem (mas não proibir rastreadores via robots.txt)Marcação não semântica ou inválidaConteúdo carregado via AJAX na forma de onclicks ou rolagem infinitaMuitos parâmetros usados em URLsProblemas canônicosEstrutura de ligação interna complicadae qualquer outra coisa que geralmente torne o rastreamento de um site uma dor de cabeça!Eu construí um crawler / spider que realiza uma série de análises em um site, e estou à procura de sites que fiquem com dificuldades.