Holen Sie sich die ersten Zeilen des Wikipedia-Artikels

Question

Oct 14, 2009, 12:03 PM

Holen Sie sich die ersten Zeilen des Wikipedia-Artikels

Ich habe einen Wikipedia-Artikel und möchte die ersten Z-Zeilen (oder die ersten X-Zeichen oder die ersten Y-Wörter, egal) aus dem Artikel holen.

Das Problem: Ich kann entweder den Quell-Wiki-Text (über API) oder den geparsten HTML-Code (über direkte HTTP-Anfrage, eventuell in der Druckversion) erhalten, aber wie finde ich die ersten angezeigten Zeilen? Normalerweise beginnt die Quelle (sowohl HTML als auch Wikitext) mit den Info-Feldern und Bildern, und der erste echte Text, der angezeigt wird, befindet sich irgendwo unten im Code.

Zum Beispiel:Albert Einstein auf Wikipedia (Druckversion). Schauen Sie im Code die erste echte Textzeile an"Albert Einstein (ausgesprochen / ˈælbərt ˈaɪnstaɪn /; deutsch: [ˈalbˈt ˈaɪ̯nɪ̯taʃn]; 14. März 1879–18. April 1955) war ein theoretischer Physiker." ist nicht am start. Gleiches gilt für dieWiki-QuelleEs beginnt mit der gleichen Info-Box und so weiter.

Wie würden Sie diese Aufgabe erfüllen? Die Programmiersprache ist Java, aber das sollte keine Rolle spielen.

Eine Lösung, die mir in den Sinn kam, bestand darin, eine xpath-Abfrage zu verwenden, aber diese Abfrage wäre ziemlich kompliziert, um alle Grenzfälle zu behandeln. [Update] Es war nicht so kompliziert, siehe meine Lösung unten! [/ Update]

Vielen Dank!