Результаты поиска по запросу "web-scraping"

3 ответа

шаблон регулярного выражения в python для разбора тегов заголовка HTML

Я учусь использовать какre модуль иurllib модуль в Python и пытается написать простой веб-скребок. Вот код, который я написал, чтобы очистить только заголовки сайтов: #!/usr/bin/python import urllib import ...

0 ответов

в XPath индексация начинается с

аюсь скрестиэто [http://www.imdb.com/title/tt0092455/trivia?tab=mc&ref_=tt_trv_cnn]сайт с использованием скрапа. Структура страницы выглядит следующим образом: <div class="list"> <a id="follows" name="follows"></a> ...

1 ответ

@haben, проверьте последние изменения

лал улучшение своего кода в соответствии сэто [https://stackoverflow.com/a/45958106/8476752]предложение от @paultrmbrth. что мне нужно, это очистить данные со страниц, которые похожи ...

ТОП публикаций

2 ответа

 а затем фильтровать по именам типов файлов

аюсь использоватьrvest загрузить список файлов изэтот сайт. [https://www-air.larc.nasa.gov/cgi-bin/ArcView/actamerica.2016?C130=1]Имена файлов являются обычными, но URL-адреса для загрузки не соответствуют шаблону (всего десятки цифр), поэтому я ...

1 ответ

Omegastripes, то, что вы сделали в первом фрагменте кода, почти идентично моему обходному решению, так что меня обнадеживает то, что качество моего кодирования идет вперед. XHR - новинка для меня, и я не делал никакой работы с JSON с тех пор, как она появилась около 15 лет назад. Я встану на скорости на обоих из них. Я только начал изучать функцию MSXML2.XMLHTTP на прошлой неделе. Я считаю, что вы правы, что это путь. Я попробую на работе и доложу здесь. Спасибо!

приостановить код до полной загрузки веб-страницы, я использовал метод, описанный ниже, с большим успехом почти все время. Do While objIE.Busy = True Or objIE.readyState <> 4: DoEvents: LoopНо иногда я вижу загрузку текстового содержимого после ...

1 ответ

Спасибо, это сработало. Мне нужно было добавить время ожидания, прежде чем я вызвал find_elements_by_tag_name и нашел больше фреймов таким образом. В любом случае, вы знаете, как запросить внутренний HTML, созданный iframe?

тоящее время я пытаюсь использовать селен и BeautifulSoup для получения всех тегов iframe с веб-сайта. Проблема в том, что я не получаю все iframes, потому что внутри веб-страницы есть внутренние HTML-документы, которые BS4 не просматривает, и я ...

1 ответ

Вы закрываете это сейчас

ытался отказаться от Finviz для некоторой ключевой статистики запаса. Я применил коды из оригинального вопроса:Сканирование ключевых статистических данных в Yahoo! Финансы с ...

0 ответов

 Когда я запускаю этот скрипт, самый дешевый результат - 1182EUR. Когда я ищу точно такой же маршрут вручную, это 579EUR. Это из-за авиакомпании третьего рейса.

сь, как использовать Selenium с Python, пытаясь отказаться от программного обеспечения Matrix ITA (если вы этого не знаете, это поможет найти хорошие тарифы на перелет). Я заполняю всю форму с помощью Selenium точно так же, как вручную (те же ...

1 ответ

Спасибо @Vaviloff, что статья, на которую вы ссылались, была великолепна, и ваше понимание очень помогло.

то, может быть, я параноик. Я очищаю свою временную шкалу на Facebook для хобби-проекта с использованием PhantomJS. По сути, я написал программу, которая находит все мои объявления, запрашивая страницу для текстаSponsored с XPATH внутри ...

1 ответ

Это выводы

ужно очистить эту HTML-страницу ...