Sites que são particularmente desafiadores para rastrear e raspar? [fechadas]

Estou interessado em sites voltados ao público (nada por trás de um login / autenticação) com coisas como:

Alto uso de redirecionamentos internos 301 e 302Medidas anti-raspagem (mas não proibir rastreadores via robots.txt)Marcação não semântica ou inválidaConteúdo carregado via AJAX na forma de onclicks ou rolagem infinitaMuitos parâmetros usados ​​em URLsProblemas canônicosEstrutura de ligação interna complicadae qualquer outra coisa que geralmente torne o rastreamento de um site uma dor de cabeça!

Eu construí um crawler / spider que realiza uma série de análises em um site, e estou à procura de sites que fiquem com dificuldades.