Uzyskaj pierwsze wiersze artykułu w Wikipedii

Question

Oct 14, 2009, 12:03 PM

Uzyskaj pierwsze wiersze artykułu w Wikipedii

Mam artykuł w Wikipedii i chcę pobrać z artykułu pierwsze linie z (lub pierwsze x znaków lub pierwsze słowa y).

Problem: mogę pobrać albo źródłowy Wiki-Text (przez API), albo przeanalizowany HTML (przez bezpośrednie żądanie HTTP, ewentualnie w wersji do druku), ale jak mogę znaleźć pierwsze wyświetlane linie? Normalnie źródło (zarówno html, jak i wikitext) zaczyna się od pól informacyjnych i obrazów, a pierwszy prawdziwy tekst do wyświetlenia znajduje się gdzieś w kodzie.

Na przykład:Albert Einstein na Wikipedii (wersja do druku). Spójrz na kod, pierwszą prawdziwą linię tekstu„Albert Einstein (wymawiane / ˈælbərt ˈaɪnstaɪn /; niemiecki: [ˈalbɐt ˈaɪ̯ntaɪ̯n]; 14 marca 1879–18 kwietnia 1955) był fizykiem teoretycznym.” nie jest na początku. To samo dotyczyWiki-Source, zaczyna się od tego samego pola informacyjnego i tak dalej.

Jak więc mógłbyś wykonać to zadanie? Językiem programowania jest java, ale to nie powinno mieć znaczenia.

Rozwiązaniem, które przyszło mi do głowy, było użycie zapytania xpath, ale to zapytanie byłoby dość skomplikowane do obsługi wszystkich przypadków granicznych. [aktualizacja] To nie było takie skomplikowane, zobacz moje rozwiązanie poniżej!

Dzięki!