Результаты поиска по запросу "scrapy"

5 ответов

Scrapy получить URL запроса в разборе

Как я могу получить URL запроса в Scrapy'sparse() функционировать? У меня много URL вstart_urls и некоторые из них перенаправляют моего паука на домашнюю страницу, и в результате у меня есть пустой элемент. Так что мне нужно ...

2 ответа

Scrap повтор или перенаправление промежуточного программного обеспечения

Во время сканирования сайта с помощью scrapy я перенаправляюсь на страницу, заблокированную пользователем, примерно в 1/5 времени. Я теряю страницы, которые я перенаправилиз когда это произойдет. Я не знаю, какое промежуточное программное ...

1 ответ

Scrapy Spider для JSON Response

Я пытаюсь написать паука, который сканирует следующий ответ JSON: http://gdata.youtube.com/feeds/api/standardfeeds/UK/most_popular?v=2&alt=json [http://gdata.youtube.com/feeds/api/standardfeeds/UK/most_popular?v=2&alt=json] Как будет выглядеть ...

ТОП публикаций

3 ответа

Scrapy Python Настроить пользовательский агент

Я попытался переопределить user-agent моего crawlspider, добавив в проект дополнительную строкуконфигурационный файл [http://doc.scrapy.org/en/latest/topics/settings.html#project-settings-module], Вот код: [settings] default = myproject.settings ...

0 ответов

 чтобы решить вашу проблему.

с: как я могу использовать Scrapy для создания недубликционного списка абсолютных путей из относительных путей подimg srcтег? Фон: Я пытаюсь использовать Scrapy для сканирования сайта, тянуть любые ссылки подimg srcпометить, преобразовать ...

3 ответа

Еще одна вещь, которую следует учитывать, если вы используете только один компьютер, и эта ошибка возникает - слишком большое количество открытых файлов на самом деле не является узким местом в ресурсах. Возможно, было бы лучше, если бы каждый паук запускал 200 или около того потоков, чтобы сделать сетевой ввод-вывод (обычно, хотя иногда ЦП или еще много чего) узким местом. Каждый паук завершит работу в среднем быстрее, чем ваше текущее решение, которое выполняет их все сразу и достигает некоторого предела «максимального дескриптора файла», а не фактического предела ресурса.

аюсь построить систему для запусканесколько десятков пауков Scrapy [https://github.com/alltheplaces/alltheplaces/tree/master/locations/spiders], сохраните результаты в S3 и дайте мне знать, когда он закончится. Есть несколько похожих вопросов о ...

2 ответа

Решение: попробуйте следующую строку:

аюсь, чтобы мой вывод выглядел следующим образом в формате json. {"loser": "De Schepper K." ,"winner": "Herbert P.", "url": "https://www.sofascore.com/tennis/2018-02-07"}Но в настоящее время я получаю отдельные строки для каждого предмета ...

1 ответ

Это на самом деле не отвечает на вопрос «несколько пауков». Это обычный хак, который вытесняет использование нескольких пауков. Будь хорошим, если бы был более полный ответ.

у знать, возможно ли использовать несколько пауков в одном проекте вместе. На самом деле мне нужно 2 паука. Первый собирает ссылки, по которым второй паук должен поцарапать. Они оба работают на одном сайте, поэтому домен похож. Возможно ли это? ...

4 ответа

@ Желудь это точно. Затраты на создание и запуск всех экземпляров искателя слишком высоки.

ного озадачен тем, как файлы cookie работают со Scrapy, и как вы управляете этими файлами cookie. Это в основном упрощенная версия того, что я пытаюсь сделать: Как работает сайт:Когда вы заходите на сайт, вы получаете сессионный cookie. Когда ...

2 ответа

Как использовать скрап для сканирования нескольких страниц?

Все примеры Scrapy, которые я нашел, рассказывают о том, как сканировать одну страницу, страницы с одинаковой схемой URL или все страницы веб-сайта. Мне нужно сканировать серии страниц A, B, C, где в A вы получили ссылку на B и т. Д. Например, ...