Лучший способ программно сохранить веб-страницу в статический файл HTML
Чем больше исследований я делаю, тем мрачнее становится прогноз.
Я пытаюсь сохранить или сохранить веб-страницу с помощью Python. Это означает объединение всех стилей со встроенными свойствами и изменение всех ссылок на абсолютные URL-адреса.
Мы пробовали почти все бесплатные конверсионные сайты, API и даже библиотеки на GitHub. Никто не впечатляет. Лучшая реализация Python, которую я смог найти для выравнивания стилей, этоhttps://github.com/davecranwell/inline-styler, Я немного адаптировал это для Flask, но сгенерированный файл неэто здорово. Вот'Как это выглядит:
Очевидно, это должно выглядеть лучше. Вот'Как это должно выглядеть:
Это похоже на бесконечную борьбу, связанную с Malformed html, нераспознанными свойствами CSS, ошибками Unicode и т. Д. Так есть ли у кого-нибудь предложения по лучшему способу сделать это? Я понимаю, я могу пойти в файл -> сохранить в моем локальном браузере, но когда я пытаюсь сделать это в массовом порядке, и извлечь конкретный xpath, который 'не реально жизнеспособно.
Похоже, EvernoteВеб-клипер использует iFrames, но это кажется более сложным, чем я думаю. Но по крайней мере вырезки выглядят прилично на Evernote.