Websites, die besonders schwierig zu crawlen und zu kratzen sind? [geschlossen]

Ich interessiere mich für öffentlich zugängliche Websites (nichts hinter einem Login / einer Authentifizierung), die Folgendes enthalten:

Hohe Verwendung von internen 301- und 302-WeiterleitungenAnti-Scraping-Maßnahmen (Crawler jedoch nicht über robots.txt verbieten)Nicht semantischer oder ungültiger AufschlagÜber AJAX geladene Inhalte in Form von On-Clicks oder unendlichem ScrollenViele Parameter, die in URLs verwendet werdenKanonische ProblemeGewundene interne Linkstrukturund alles andere, was das Crawlen einer Website im Allgemeinen zu Kopfschmerzen macht!

Ich habe einen Crawler / eine Spinne gebaut, der / die eine Reihe von Analysen auf einer Website durchführt, und ich bin auf der Suche nach Websites, die es schwer machen werden.

Antworten auf die Frage(1)

Ihre Antwort auf die Frage