Результаты поиска по запросу "scrapy"
scrapy- как остановить перенаправление (302)
Я пытаюсь сканировать URL с помощью Scrapy. Но он перенаправляет меня на страницу, которая не существует. Redirecting (302) to ...
Scrapy с вложенным массивом
Я новичок в scrapy и хотел бы понять, как очищать объект для вывода во вложенный JSON. Прямо сейчас я создаю JSON, который выглядит как [ {'a' : 1, 'b' : '2', 'c' : 3}, ]И я хотел бы это больше так: [ { 'a' : '1', '_junk' : [ 'b' : 2, 'c' : ...
Локально запустить всех пауков в Scrapy
Есть ли способ запустить всех пауков в проекте Scrapy без использования демона Scrapy? Раньше был способ запустить несколько пауков сscrapy crawl, но этот синтаксис был удален, и код Scrapy немного изменился. Я попытался создать свою собственную ...
Scrapy: значения по умолчанию для элементов и полей. Какова лучшая реализация?
Насколько я мог узнать из документации и различных обсуждений в сети, возможность добавлять значения по умолчанию к полям в элементе scrapy была удалена. Это не работает category = Field(default='null')Итак, мой вопрос: что является хорошим ...
Scrapy CrawlSpider не сканирует первую целевую страницу
Я новичок в Scrapy, я работаю над скребком и использую CrawlSpider. Несмотря на то, что платформа Scrapy прекрасно работает и работает по соответствующим ссылкам, я не могу заставить CrawlSpider очистить самую первую ссылку (домашняя страница / ...
Проверка URL для 404 ошибки Scrapy
Я просматриваю набор страниц, и я не уверен, сколько их, но текущая страница представлена простым числом, присутствующим в URL (например, " http://www.website.com/page/1 [http://www.website.com/page/1]«) Я хотел бы использовать цикл for в ...
Scrapy: разбирать элементы списка на отдельные строки
Попытка адаптировать ответ кэтот вопро [https://stackoverflow.com/questions/18609267/scrapy-how-to-separate-text-within-a-html-tag-element] к моей проблеме, но не успешно. Вот пример HTML-кода: <div id="provider-region-addresses"> ...
Возможно ли, что Scrapy получит простой текст из необработанных HTML-данных напрямую, а не с помощью селекторов xPath?
Например scrapy shell http://scrapy.org/ content = hxs.select('//*[@id="content"]').extract()[0] print content тогда я получил следующие необработанные HTML-коды: <div id="content"> <h2>Welcome to Scrapy</h2> <h3>What is Scrapy?</h3> ...