skrobanie stron internetowych, aby wypełnić (i pobrać) formularze wyszukiwania?

Question

Jul 23, 2009, 09:11 AM

skrobanie stron internetowych, aby wypełnić (i pobrać) formularze wyszukiwania?

Zastanawiałem się, czy możliwe jest „zautomatyzowanie” zadania wpisywania wpisów do wyszukiwania formularzy i wyodrębniania wyników z wyników. Na przykład mam listę artykułów z czasopism, dla których chciałbym uzyskać DOI (cyfrowy identyfikator obiektu); ręcznie, aby przejść do strony wyszukiwania artykułów z dziennika (np.http://pubs.acs.org/search/advanced), wpisz autorów / tytuł / objętość (itd.), a następnie znajdź artykuł z listy zwróconych wyników i wybierz DOI i wklej go do mojej listy referencyjnej. Używam R i Pythona do regularnej analizy danych (zainspirował mnie post na RCurl), ale niewiele wiem o protokołach internetowych ... czy jest to możliwe (na przykład przy użyciu czegoś takiego jak BeautifulSoup Pythona?). Czy są jakieś dobre referencje do zrobienia czegoś podobnego do tego zadania? Jestem tak samo zainteresowany zdobyciem wiedzy na temat skrobania w sieci i narzędzi do scrapingu w Internecie, jak i na wykonanie tego konkretnego zadania ... Dzięki za poświęcony czas!