Доступные в Ruby гемы / инструменты для очистки веб-страниц [закрыто]
Я пытаюсь очистить веб-страницы сценарием Ruby, над которым я работаю. Цель проекта - показать, какие ETF и паевые инвестиционные фонды наиболее совместимы с философией инвестирования в стоимость.
Вот некоторые примеры страниц, которые я хотел бы почистить:
http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V
Какие инструменты для поиска в Интернете вы порекомендуете для Ruby и почему? Имейте в виду, что существуют тысячи фондовых фондов, поэтому любой инструмент, который я использую, должен быть достаточно быстрым.
Я новичок в Ruby, но у меня есть опыт использования lxml для очистки веб-страниц в Python (https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py). После загрузки страниц на более чем 5000 ресурсах lxml сможет очистить их всего за несколько минут. (Я помню, как пробовал BeautifulSoup, но отклонил его, потому что он был слишком медленным.)