sitio web http de espejo, excluyendo ciertos archivos
Me gustaría reflejar un portal web simple protegido por contraseña a algunos datos que me gustaría mantener duplicados y actualizados. Esencialmente, este sitio web es solo una lista de directorios con datos organizados en carpetas y realmente no me importa mantener archivos html y otros elementos de formato. Sin embargo, hay algunos tipos de archivos enormes que son demasiado grandes para descargar, por lo que quiero ignorarlos.
Utilizando lawget -m -R/--reject
flag casi hace lo que quiero, excepto que todos los archivos se descargan, luego, si coinciden con la marca -R, se eliminan.
Así es como estoy usandowget
:
wget --http-user userName --http-password password -R index.html,*tiff,*bam,*bai -m http://web.server.org/
Lo que produce una salida como esta, confirmando que un archivo excluido (index.html) (a) se descarga, y (b) luego se elimina:
...
--2012-05-23 09: 38: 38--http://web.server.org/folder/
Reutilizando la conexión existente a web.server.org:80.
Solicitud HTTP enviada, en espera de respuesta ... 401 autorización requerida
Reutilizando la conexión existente a web.server.org:80.
Solicitud HTTP enviada, esperando respuesta ... 200 OK
Longitud: 2677 (2.6K) [texto / html]
Guardar en: `web.server.org/folder/index.html '100% [=============================== ================================================== ======================================>] 2,677 --.- K / s en 0s
Falta el encabezado de última modificación: las marcas de tiempo están desactivadas.
2012-05-23 09:38:39 (328 MB / s) - `web.server.org/folder/index.html 'guardado [2677/2677]
Eliminando web.server.org/folder/index.html ya que debería rechazarse.
...
¿hay una manera de forzar a wget a rechazar el archivo antes de descargarlo?
¿Hay alguna alternativa que deba considerar?
Además, ¿por qué me sale un401 Authorization Required
error por cada archivo descargado, a pesar de proporcionar el nombre de usuario y la contraseña. Es comowget
intenta conectarse sin autenticar cada vez, antes de intentar el nombre de usuario / contraseña.
gracias mark