¿Cómo automatizar el ahorro de páginas web?

Necesito archivar varios cientos de páginas web al estilo de lo que los navegadores llaman "Guardar como, completo", lo que significa que guardan un archivo HTML para la página junto con una carpeta llena de otros archivos necesarios para representar la página correctamente, como CSS , JS y archivos de imagen. Esto permite que las páginas se vean sin conexión con el mismo aspecto que cuando se muestran en línea.

Aquí están los métodos que he probado y los problemas con cada uno:

Proceso manual en Firefox:

En el enlace para la página siguiente, haga clic derecho. Escriba "A" para "Guardar ubicación del enlace" para copiar la URL de destino en el portapapeles.Haga clic en el enlace para ir a la página. Escriba "Alt-F-A" para "Guardar página como". Si aún no está seleccionado, configure "Guardar como tipo" en "Página web, completa". Si aún no está allí, coloque el cursor en "Nombre de archivo". Escriba "Ctrl-Insertar" para pegar el portapapeles, que contiene la URL de la página actual. Mueva el cursor al final de la URL, luego muévalo hacia atrás hasta que llegue al último "/". Seleccione de allí a la izquierda para seleccionar la parte de ruta de la URL. Presione "Eliminar" para eliminar la ruta de la URL, dejando solo el nombre del archivo.Presione "Enter" en el teclado o "Ok" en el cuadro de diálogo. La página ahora está guardada. Repita el proceso haciendo clic en el enlace de la página siguiente. (Esto supone que cada página tiene un enlace "Siguiente", lo cual es cierto para las páginas que estoy archivando. Si eso no fuera cierto, entonces habría un paso adicional para volver a la página con una lista de todos los enlaces y hacer clic el siguiente desde allí.)

Eso es bastante tedioso de hacer una y otra vez. Es el proceso que quiero automatizar.

iMacros. Este tipo de tarea repetitiva es exactamente para lo que son las macros. He usado iMacros antes para tareas similares en un navegador web, pero no lo había usado en mucho tiempo. Lo reinstalé, descubrí cómo usarlo nuevamente y escribí una macro de una o dos líneas para guardar la página actual con el nombre de archivo de su URL. Luego, cuando intenté ejecutarlo, iMacros me informó que elSaveAsl comando @ no está disponible en la versión gratuita y necesito pasar a la versión de $ 100 (con una prueba gratuita de 30 días) para obtener esa capacidad. No me impresionó lo que había visto en la versión actual del software, y me pareció torpe y mal documentado. Así que preferí buscar otra solución.

Wget. Esto es muy genial. @ Wikipedia lo describe como "un programa de computadora que recupera contenido de servidores web". Era nuevo para mí y me tomó un tiempo descubrirlo. Principalmente facturado como un programa Unix, también está disponible para Windows, y es solo un pequeño archivo ejecutable que no requiere instalación. Lo aprendí lo suficiente como para descargar algunas páginas de prueba, pero cuando fui a las páginas que necesito archivar, no funcionó en ellas. He enviado un correo electrónico a la lista de correo de Wget sobre el problema y estoy esperando para ver si puedo resolverlo con ayuda. (El correo electrónico vinculado tiene la línea de comando Wget que utilicé, incluida la URL de una página que quiero archivar, con archivos de imagen adjuntos de cómo se ve la página en línea y después de que Wget la haya guardado).

Edit: Hasta más de una semana después, no hubo respuesta en la lista de correo de Wget.

Seleni. Aunque esto no dice que sea para construir macros, sino "casos de prueba"., parece un sistema macro de mayor calidad que iMacros. Entonces lo probé. Pero descubrí que no registra todo lo que necesito hacer en el procedimiento enProceso manual en Firefox encima. Por ejemplo, cuando hice clic derecho en el enlace y escribí "A" para almacenar la URL vinculada, Selenium no agregó nada al algoritmo que estaba grabando. Después de seguir el enlace, cuando guardé la página, Selenium nuevamente no hizo nada. Entonces, aunque parece un software de calidad, no parece tener la capacidad que necesito, a menos que esté malinterpretando algo.

Así que estoy perplejo. No voy a hacer ese proceso manual varios cientos de veces. Entonces necesito encontrar una manera de automatizarlo. ¿Cómo puedo hacer eso

Respuestas a la pregunta(2)

Su respuesta a la pregunta