Как собрать данные с нескольких страниц в единую структуру данных с помощью скрапа
Я пытаюсь очистить данные с сайта. Данные структурированы как несколько объектов, каждый из которых содержит набор данных. Например, люди с именами, возрастами и профессиями.
Моя проблема в том, что эти данные разделены на два уровня на веб-сайте.
На первой странице, скажем, список имен и возрастов со ссылкой на страницу профиля каждого человека.
Их страница профиля перечисляет их занятие.
У меня уже есть паук, написанный с помощью scrapy на python, который может собирать данные из верхнего слоя и сканировать через несколько страниц.
Но как я могу собирать данные с внутренних страниц, сохраняя при этом связь с соответствующим объектом?
В настоящее время у меня есть выход структурирован с помощью JSON как
{[name='name',age='age',occupation='occupation'],
[name='name',age='age',occupation='occupation']} etc
Может ли функция разбора охватить такие страницы?