site http espelho, excluindo certos arquivos

Gostaria de espelhar um portal web protegido por senha para alguns dados que gostaria de manter espelhados e atualizados. Essencialmente, este site é apenas uma listagem de diretório com dados organizados em pastas e eu realmente não me importo em manter arquivos HTML e outros elementos de formatação. No entanto, existem alguns tipos de arquivos enormes que são muito grandes para serem baixados, portanto, quero ignorá-los.

Usando owget -m -R/--reject flag quase faz o que eu quero, exceto que todos os arquivos são baixados, então se eles coincidirem com o sinalizador -R, eles serão apagados.

Aqui está como eu estou usandowget:

wget --http-user userName --http-password password -R index.html,*tiff,*bam,*bai -m http://web.server.org/

Que produz uma saída como essa, confirmando que um arquivo excluído (index.html) (a) é baixado e (b) é excluído:

...
--2012-05-23 09: 38: 38--http://web.server.org/folder/
Reutilizando a conexão existente para web.server.org:80.
Solicitação HTTP enviada, aguardando resposta ... 401 Autorização necessária
Reutilizando a conexão existente para web.server.org:80.
Pedido HTTP enviado, aguardando resposta ... 200 OK
Comprimento: 2677 (2.6K) [texto / html]
Salvando em: `web.server.org/folder/index.html '100% [=============================== ================================================== =====================================>] 2,677 --.- K / s em 0s

Cabeçalho da última modificação em falta - os carimbos de data e hora estão desativados.
2012-05-23 09:38:39 (328 MB / s) - `web.server.org/folder/index.html 'salvo [2677/2677]

Removendo web.server.org/folder/index.html, uma vez que deve ser rejeitado.

...

Existe uma maneira de forçar o wget a rejeitar o arquivo antes de baixá-lo?
Existe uma alternativa que eu deveria considerar?

Além disso, por que eu recebo401 Authorization Required erro para cada arquivo baixado, apesar de fornecer nome de usuário e senha. É comowget tenta se conectar sem autenticação toda vez, antes de tentar o nome de usuário / senha.

obrigado, Mark

questionAnswers(4)

yourAnswerToTheQuestion