Результаты поиска по запросу "web-scraping"
Соскребая веб-страницу JavaScript с Python
Я пытаюсь разработать простой веб-скребок. Я хочу извлечь текст без кода HTML. На самом деле я достиг этой цели, но я видел, что на некоторых страницах, где загружен JavaScript, я не добился хороших результатов. Например, если какой-то код ...
Как вычеркнуть HTML-таблицы из списка ссылок
Я пытаюсь очистить некоторые таблицы (данные о выборах) с помощью пакета XML. Просматривая ТАК, я узнал, как очистить один URL, используя: library(XML) url <- "http://www.elecciones2011.gob.ar/paginas/paginas/dat99/DPR99999A.htm" total ...
Модуль запроса, как правильно получить символы с акцентом?
Я использую:Модуль: Запрос - упрощенный метод HTTP-запроса [https://github.com/mikeal/request]скрести страницу с акцентированными символамиá é ó ú ê ã и т.п. Я уже пробовалаencoding: utf-8 без успеха. Я все еще получаю это символов ...
Отправить данные через веб-форму и извлечь результаты
Мой уровень питона - новичок. Я никогда не писал веб-скребок или сканер. Я написал код Python для подключения к API и извлечения данных, которые я хочу. Но для некоторых извлеченных данных я хочу получить пол автора. Я нашел ...
php: получить простой текст из html - simplehtmldom или php strip_tags?
Я смотрю на получение простого текста из HTML. Какой из них выбрать, php strip_tags [http://php.net/manual/en/function.strip-tags.php]или жеsimplehtmldom [http://simplehtmldom.sourceforge.net/]извлечение открытого текста? Одним из плюсов для ...
Есть ли лучший способ сделать эту задачу очистки XML в R?
У меня есть XML, который выглядит так: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE plist PUBLIC "-//Apple Computer//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd"> <plist version="1.0"> <array> <dict> ...
Нажмите всплывающее окно JavaScript через веб-драйвер
Я очищаю веб-страницу с помощью Selenium webdriver в Python Веб-страница, над которой я работаю, имеет форму. Я могу заполнить форму и нажать кнопку «Отправить». Он генерирует всплывающее окно (Javascript Alert). Я не уверен, как ...
Ошибки относительно Web Crawler в PHP
Я пытаюсь создать простой веб-сканер, использующий PHP, который способен сканировать домены .edu, при условии, что исходные URL родительского. Я использовал простой html dom для реализации сканера, в то время как некоторая основная логика ...
Получить заголовок, контент по ссылке в рельсах
Я только начал изучать рельсы. Не могли бы вы помочь мне разобрать разбор одной ссылки? Хороший учебник тоже поможет ... Вопрос: Когда вы отправляете ссылку в Digg, Facebook и т. Д. После того, как вы произнесете ссылку «прикрепить», она ...
Очистите несколько URL с помощью QWebPage
Я использую Qt QWebPage для рендеринга страницы, которая использует javascript для динамического обновления своего содержимого - поэтому библиотека, которая просто загружает статическую версию страницы (например, urllib2), не будет работать. Моя ...