Python - reiniciar a sessão da web a partir do urllib2 após o login manual do navegador

Question

Sep 12, 2012, 08:27 AM

Python - reiniciar a sessão da web a partir do urllib2 após o login manual do navegador

Digamos, eu navego para um site (na intranet também) que exige um login para acessar o conteúdo. Eu preencherei os campos obrigatórios ... por exemplo nome de usuário, senha e qualquer captcha, etc., que é necessário para efetuar login a partir do próprio navegador.

Uma vez que eu tenha logado no site, existem muitos itens que podem ser copiados de vários links e abas na primeira página depois de logados.

Agora, a partir deste ponto em diante (que é depois de logado no navegador) .. Eu quero controlar a página e downloads de urllib2 ... como passar por página por página, baixar pdf e imagens em cada página, etc.

Eu entendo que podemos usar tudo de urllib2 (ou mecanizar) diretamente (que é o login na página e fazer a coisa toda).

Mas, para alguns sites, é realmente uma dor passar e descobrir o mecanismo de login, parâmetros ocultos necessários, referenciadores,CAPTCHA, cookies e pop-ups.

Por favor informar. Espero que minha pergunta faça sentido.

Em resumo, eu quero que a parte inicial do login seja feita usando o navegador da web manualmente ... e, em seguida, assuma a automação para a extração através do urllib2.