Как улучшить скорость загрузки scrapy?

Я использую scrapy для параллельной загрузки страниц из разных доменов. У меня есть сотни тысяч страниц для загрузки, поэтому производительность важна.

К сожалению, как япрофилированная скрапскорость, яЯ получаю только пару страниц в секунду. Действительно, в среднем около 2 страниц в секунду. Я'ранее я писал своих собственных многопоточных пауков, чтобы они делали сотни страниц в секунду - я думал, что это точноИспользование закрученных и т. д. способно на подобную магию.

Как я могу ускорить копирование? Мне очень нравятся фреймворки, но эта проблема с производительностью может стать для меня решающим фактором.

Вот'Соответствующая часть файла settings.py. Есть ли важная обстановка, которую япропустили?

LOG_ENABLED = False
CONCURRENT_REQUESTS = 100
CONCURRENT_REQUESTS_PER_IP = 8

Несколько параметров:

Использование скрапа версии 0.14Проект развернут на большом экземпляре EC2, поэтому должно быть достаточно памяти, ЦП и пропускной способности для игры.m планирование обходов с использованием протокола JSON, что позволяет сканеру заполняться несколькими десятками одновременных обходов в любой момент времени.Как я сказал в начале, язагружать страницы со многих сайтов, поэтому производительность удаленного сервера и CONCURRENT_REQUESTS_PER_IP не должныне беспокойсяНа данный момент яЯ делаю очень мало пост-обработки. Нет xpath; нет регулярных выражений; Я'Я просто сохраняю URL и несколько основных статистических данных для каждой страницы. (Это изменится позже, когда я получу базовые оценки производительности.)

Ответы на вопрос(1)

Ваш ответ на вопрос