lustrzana witryna http, z wyłączeniem niektórych plików

Chciałbym odzwierciedlić prosty, chroniony hasłem portal internetowy dla niektórych danych, które chciałbym zachować w lustrze i zaktualizować. Zasadniczo ta strona jest tylko listą katalogów z danymi zorganizowanymi w folderach i nie zależy mi na przechowywaniu plików html i innych elementów formatujących. Istnieje jednak kilka dużych typów plików, które są zbyt duże, aby je pobrać, więc chcę je zignorować.

Używającwget -m -R/--reject Flaga prawie robi to, co chcę, z wyjątkiem tego, że wszystkie pliki są pobierane, a jeśli pasują do flagi -R, to są usuwane.

Oto jak używamwget:

wget --http-user userName --http-password password -R index.html,*tiff,*bam,*bai -m http://web.server.org/

Który produkuje dane wyjściowe w ten sposób, potwierdzając, że wykluczony plik (index.html) (a) zostaje pobrany, i (b) następnie zostaje usunięty:

...
--2012-05-23 09: 38: 38--http://web.server.org/folder/
Ponowne użycie istniejącego połączenia do web.server.org:80.
Wysłano żądanie HTTP, w oczekiwaniu na odpowiedź ... 401 Wymagana autoryzacja
Ponowne użycie istniejącego połączenia do web.server.org:80.
Wysłano żądanie HTTP, oczekując na odpowiedź ... 200 OK
Długość: 2677 (2.6K) [tekst / html]
Zapisywanie do: `web.server.org/folder/index.html '100% [=============================== ================================================== =====================================>] 2,677 --.- K / s w 0s

Brak ostatniego nagłówka - znaczniki czasu wyłączone.
2012-05-23 09:38:39 (328 MB / s) - zapisano `web.server.org/folder/index.html '[2677/2677]

Usuwanie web.server.org/folder/index.html, ponieważ powinno zostać odrzucone.

...

czy istnieje sposób zmuszenia wget do odrzucenia pliku przed pobraniem?
Czy istnieje alternatywa, którą powinienem rozważyć?

Również dlaczego dostaję401 Authorization Required błąd dla każdego pobranego pliku, pomimo podania nazwy użytkownika i hasła. To jest jakwget próbuje połączyć się nieautoryzowany za każdym razem, przed wypróbowaniem nazwy użytkownika / hasła.

dzięki, Mark

questionAnswers(4)

yourAnswerToTheQuestion