Resultados da pesquisa a pedido "robots.txt"
Python, Mechanize - solicitação não permitida pelo robots.txt mesmo depois de set_handle_robots e add_headers
Eu fiz um web crawler que recebe todos os links até o primeiro nível de página e deles obtém todos os links e texto, além de imagelinks e alt. aqui está o có...
O que o cifrão significa no robots.txt
Estou curioso sobre um site e quero fazer algum rastreamento na Web no/s caminho.O seu robots.txt [http://mp.weixin.qq.com/robots.txt]: User-Agent: * Allow: /$ Allow: /debug/ Allow: /qa/ Allow: /wiki/ Allow: /cgi-bin/loginpage Disallow: /Minhas ...
Como posso servir o robots.txt em um SPA usando o React com hospedagem no Firebase?
Eu tenho um SPA construído usandocreate-react-app e deseja ter um robots.txt como este: http://example.com/robots.txtEu vejo noesta página [https://github.com/ReactTraining/react-router/issues/3023]este: Você precisa ter certeza de que seu ...
Parar bots abusivos de rastrear?
Isso é uma boa ideia? http: //browsers.garykeith.com/stream.asp? RobotsTXT [http://browsers.garykeith.com/stream.asp?RobotsTXT] O que significa rastreamento abusivo? Como isso é ruim para o meu site?
Como impedir que os mecanismos de pesquisa indexem todos os URLs que começam com origin.domainname.com
Eu tenho www.domainname.com, origin.domainname.com apontando para a mesma base de código. Existe uma maneira, posso impedir que todos os URLs do nome de base origin.domainname.com sejam indexados. Existe alguma regra no robot.txt para fazer ...
Regexp para robots.txt
Estou tentando configurar meu robots.txt, mas não tenho certeza sobre os regexps. Tenho quatro páginas diferentes disponíveis em três idiomas diferentes. Em vez de listar cada página três vezes, achei que poderia usar uma regexp. ...
Como ocultar o diretório de sites dos mecanismos de pesquisa sem o Robots.txt?
Sabemos que podemos impedir que os mecanismos de pesquisa indexem diretórios em nosso site usando o robots.txt. Mas é claro que isso tem a desvantagem de realmente divulgar diretórios que não queremos que sejam encontrados por possíveis ...
Robots.txt nega, por um #! URL
Estou tentando adicionar uma regra de negação a um arquivo robots.txt para negar acesso a uma única página.Os URLs do website funcionam da seguinte maneira:h...