Resultados da pesquisa a pedido "robots.txt"

1 a resposta

Python, Mechanize - solicitação não permitida pelo robots.txt mesmo depois de set_handle_robots e add_headers

Eu fiz um web crawler que recebe todos os links até o primeiro nível de página e deles obtém todos os links e texto, além de imagelinks e alt. aqui está o có...

1 a resposta

O que o cifrão significa no robots.txt

Estou curioso sobre um site e quero fazer algum rastreamento na Web no/s caminho.O seu robots.txt [http://mp.weixin.qq.com/robots.txt]: User-Agent: * Allow: /$ Allow: /debug/ Allow: /qa/ Allow: /wiki/ Allow: /cgi-bin/loginpage Disallow: /Minhas ...

1 a resposta

Como posso servir o robots.txt em um SPA usando o React com hospedagem no Firebase?

Eu tenho um SPA construído usandocreate-react-app e deseja ter um robots.txt como este: http://example.com/robots.txtEu vejo noesta página [https://github.com/ReactTraining/react-router/issues/3023]este: Você precisa ter certeza de que seu ...

1 a resposta

Como criar um arquivo robots.txt para ocultar uma página vew dos mecanismos de pesquisa no codeigniter

2 a resposta

Parar bots abusivos de rastrear?

Isso é uma boa ideia? http: //browsers.garykeith.com/stream.asp? RobotsTXT [http://browsers.garykeith.com/stream.asp?RobotsTXT] O que significa rastreamento abusivo? Como isso é ruim para o meu site?

2 a resposta

Como impedir que os mecanismos de pesquisa indexem todos os URLs que começam com origin.domainname.com

Eu tenho www.domainname.com, origin.domainname.com apontando para a mesma base de código. Existe uma maneira, posso impedir que todos os URLs do nome de base origin.domainname.com sejam indexados. Existe alguma regra no robot.txt para fazer ...

3 a resposta

Como não permitir páginas de pesquisa do robots.txt

1 a resposta

Regexp para robots.txt

Estou tentando configurar meu robots.txt, mas não tenho certeza sobre os regexps. Tenho quatro páginas diferentes disponíveis em três idiomas diferentes. Em vez de listar cada página três vezes, achei que poderia usar uma regexp. ...

2 a resposta

Como ocultar o diretório de sites dos mecanismos de pesquisa sem o Robots.txt?

Sabemos que podemos impedir que os mecanismos de pesquisa indexem diretórios em nosso site usando o robots.txt. Mas é claro que isso tem a desvantagem de realmente divulgar diretórios que não queremos que sejam encontrados por possíveis ...

2 a resposta

Robots.txt nega, por um #! URL

Estou tentando adicionar uma regra de negação a um arquivo robots.txt para negar acesso a uma única página.Os URLs do website funcionam da seguinte maneira:h...