Obtén las primeras líneas del artículo de Wikipedia

Question

Oct 14, 2009, 12:03 PM

Obtén las primeras líneas del artículo de Wikipedia

Obtuve un artículo de Wikipedia y quiero obtener las primeras líneas z (o los primeros caracteres x, o las primeras palabras y, no importan) del artículo.

El problema: puedo obtener el Wiki-Text de origen (a través de API) o el HTML analizado (a través de HTTP-Request directo, eventualmente en la versión impresa), pero ¿cómo puedo encontrar las primeras líneas mostradas? Normalmente, la fuente (tanto html como wikitext) comienza con los cuadros de información e imágenes, y el primer texto real que se muestra está en algún lugar del código.

Por ejemplo:Albert Einstein en Wikipedia (versión impresa). Busque en el código, la primera línea de texto real"Albert Einstein (pronunciado / ˈælbərt ˈaɪnstaɪn /; alemán: [ˈalbɐt ˈaɪ̯nʃtaɪ̯n]; del 14 de marzo de 1879 al 18 de abril de 1955) fue un físico teórico". no está en el inicio Lo mismo se aplica a laWiki-Source, comienza con el mismo cuadro de información y así sucesivamente.

Entonces, ¿cómo lograrías esta tarea? El lenguaje de programación es java, pero esto no debería importar.

Una solución que me vino a la mente fue utilizar una consulta xpath, pero esta consulta sería bastante complicada para manejar todos los casos de borde. [actualización] No fue tan complicado, ¡mira mi solución a continuación! [/ actualizar]

¡Gracias!