Получить первые строки статьи Википедии

Я получил статью из Википедии и хочу получить первые z строк (или первые x символов, или первые y слов, нене имеет значения) из статьи.

Проблема: я могу получить исходный текст Wiki (через API) или проанализированный HTML (через прямой HTTP-запрос, в конце концов в версии для печати), но как найти первые отображаемые строки? Обычно источник (как html, так и wikitext) начинается с информационных блоков и изображений, и первый реальный текст для отображения находится где-то внизу кода.

Например:Альберт Эйнштейн в Википедии (Версия для печати). Посмотри в коде первую реальную текстовую строку "Альберт Эйнштейн (произносится / ˈælbəRT ˈaɪnstaɪп /; Немецкийalbɐt ˈaɪ̯nʃtaɪ̯п]; 14 марта 1879–18 апреля 1955 г.) был физиком-теоретиком ". не на старте. То же самое относится кWiki-Source, он начинается с того же информационного блока и так далее.

Итак, как бы вы справились с этой задачей? Язык программирования Java, но это не должноне имеет значения.

Решение, которое мне пришло в голову, состояло в том, чтобы использовать запрос xpath, но этот запрос был бы довольно сложным для обработки всех пограничных случаев. [обновление] Это не былоЭто сложно, см. мое решение ниже! [/ update]

Спасибо!"

Ответы на вопрос(9)

Ваш ответ на вопрос