Результаты поиска по запросу "web-scraping"

2 ответа

Сохранение разрывов строк при разборе с Scrapy в Python

Я написал паука Scrapy, который извлекает текст со страницы. Паук анализирует и выводит правильно на многих страницах, но некоторые сбрасывают. Я пытаюсь сохранить разрывы строк и форматирование в документе. Страницы, такие ...

2 ответа

Получить комментарии с сайта, используя disqus

Я хотел бы написать скрипт для извлечения комментариев из статей cnn. Например, эта статья: http://www.cnn.com/2012/01/19/politics/gop-debate/index.html?hpt=hp_t1 [http://www.cnn.com/2012/01/19/politics/gop-debate/index.html?hpt=hp_t1] Я ...

2 ответа

Серьезная утечка памяти при итеративном разборе файлов XML

контекстПри переборе набора файлов Rdata (каждый из которых содержит вектор символов HTML-кода), которые загружаются, анализируются (с помощьюXML [http://cran.r-project.org/web/packages/XML/index.html]функциональность), а затем снова удалены из ...

ТОП публикаций

2 ответа

Выскабливание JavaScript с помощью R

Я хочу скачать таблицы с metal-archives.com, именно с http://www.metal-archives.com/artist/rip [http://www.metal-archives.com/artist/rip]Но есть одна большая проблема. Эти таблицы генерируются JavaScript. На самом деле я не знаю, что делать в ...

6 ответов

Очистить весь сайт

Я ищу рекомендации для программы, чтобы очистить и загрузить весь корпоративный сайт. Сайт работает на CMS, которая перестала работать, и ее исправление стоит дорого, и мы можем перестроить сайт. Поэтому я хотел бы просто получить весь сайт в ...

1 ответ

Ошибка lxml «IOError: Ошибка чтения файла» при синтаксическом анализе мобильного телефона facebook в скрипте python scraper

Я использую модифицированный скрипт изВход в Facebook с Python [https://stackoverflow.com/questions/2030652/logging-into-facebook-with-python] Почта : #!/usr/bin/python2 -u # -*- coding: utf8 -*- facebook_email = "[email protected]" ...

2 ответа

C # Форма зависает при обработке информации.

Я написал для себя персональную веб-утилиту, которая собирает информацию об исполнителе. код работает, но когда я нажимаю кнопку и начинаю обрабатывать цикл while, графический интерфейс останавливается. Я получил текстовые поля в .refresh (). Но ...

2 ответа

Соскребание текста из файла в тегах HTML

У меня есть файл, из которого я хочу извлечь даты, это исходный файл HTML, так что он полон кода и фраз, которые мне не нужны. Мне нужно извлечь каждый экземпляр даты, который обернут в определенный тег HTML: abbr title = "((это текст, который ...

1 ответ

установить прокси Чтобы скрыть мой IP-адрес для очистки веб-страницы с помощью scrapy

Я использую scrapy для сканирования веб-сайта, теперь мне нужно установить прокси для обработки отправленного запроса. Может кто-нибудь помочь мне решить этот набор прокси в приложении Scrapy. Пожалуйста, дайте любой пример ссылки, если у вас ...

2 ответа

Как извлечь текст из тега шрифта с помощью Beautifulsoup

Я делаю свою первую программу с Beautifulsoup, и мой HTML-файл имеет фрагмент кода, как это ...... ...... ...... <font face="verdana" size="3">5 n i D 1 C</font> ...... ......Я хочу извлечь5 n i D 1 C изнутри<font> тег. я делаю ele=soup('font', ...