Websites, die besonders schwierig zu crawlen und zu kratzen sind? [geschlossen]
Ich interessiere mich für öffentlich zugängliche Websites (nichts hinter einem Login / einer Authentifizierung), die Folgendes enthalten:
Hohe Verwendung von internen 301- und 302-WeiterleitungenAnti-Scraping-Maßnahmen (Crawler jedoch nicht über robots.txt verbieten)Nicht semantischer oder ungültiger AufschlagÜber AJAX geladene Inhalte in Form von On-Clicks oder unendlichem ScrollenViele Parameter, die in URLs verwendet werdenKanonische ProblemeGewundene interne Linkstrukturund alles andere, was das Crawlen einer Website im Allgemeinen zu Kopfschmerzen macht!Ich habe einen Crawler / eine Spinne gebaut, der / die eine Reihe von Analysen auf einer Website durchführt, und ich bin auf der Suche nach Websites, die es schwer machen werden.