Strony internetowe, które są szczególnie trudne do indeksowania i drapania? [Zamknięte]

Interesują mnie publiczne witryny (nic poza logowaniem / uwierzytelnianiem), które mają takie rzeczy jak:

Duże wykorzystanie wewnętrznych przekierowań 301 i 302Środki zapobiegające skrobaniu (ale nie zakazujące robotów indeksujących za pośrednictwem robots.txt)Nie semantyczny lub nieprawidłowy narzutTreść ładowana przez AJAX w formie onclicks lub nieskończonego przewijaniaWiele parametrów używanych w adresach URLProblemy kanoniczneZintegrowana struktura wewnętrznego łączai wszystko inne, co sprawia, że ​​czołganie się po stronie jest bólem głowy!

Zbudowałem robota / pająka, który wykonuje szereg analiz na stronie internetowej i szukam witryn, które będą go zmagać.

questionAnswers(1)

yourAnswerToTheQuestion