Может ли quickminer извлекать xpath из списка URL-адресов вместо того, чтобы сначала сохранять HTML-страницы?

Я недавно открыл RapidMiner, и я очень рад его возможностям. Однако я все еще не уверен, может ли программа помочь мне с моими конкретными потребностями. Я хочу, чтобы программа очищала совпадения xpath от списка URL-адресов, созданного с помощью другой программы. (в RapidMiner у него больше опций, чем у оператора 'crawl web')

Я видел следующие уроки от Нила Макгуигана:http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html, Но на сайтах, которые я пытаюсь очистить, есть тысячи страниц, и я не хочу хранить их все на моем компьютере. А у сканера просто нет важных функций, поэтому я не могу использовать его в своих целях. Есть ли способ, которым я могу просто сделать так, чтобы он читал URL-адреса и очищал xpath от каждого из этих URL-адресов?

Я также посмотрел на другие инструменты для извлечения html из страниц, но я не смог понять, как они работают (или даже установить), так как я не программист. Rapidminer, с другой стороны, прост в установке, описания операторов имеют смысл, но я не смог подключить их в правильном порядке.

Мне нужно иметь некоторый вклад, чтобы поддерживать мотивацию. Я хотел бы знать, какой оператор я мог бы использовать вместо «обработки документов из файлов». Я посмотрел на «обрабатывать документы из Интернета», но у него нет входных данных, и он все еще должен сканировать. Буду признателен за любую оказанную помощь.

Ждем ваших ответов.

Ответы на вопрос(2)

Ваш ответ на вопрос