Получить первые строки статьи Википедии

Я получил статью из Википедии и хочу получить первые z строки (или первые x символов, или первые y слов, не имеет значения) из статьи.

Проблема: я могу получить исходный текст Wiki (через API) или проанализированный HTML (через прямой HTTP-запрос, в конце концов в версии для печати), но как найти первые отображаемые строки? Обычно источник (как html, так и wikitext) начинается с информационных блоков и изображений, и первый реальный текст для отображения находится где-то внизу кода.

Например:Альберт Эйнштейн в Википедии (Версия для печати). Посмотри в коде, первая реальная текстовая строка«Альберт Эйнштейн (произносится как ˈælbərt ˈaɪnstaɪn /; немецкий: [ˈalbɐt ˈaɪ̯nʃtaɪ̯n]; 14 марта 1879–18 апреля 1955 года) был физиком-теоретиком». не на старте. То же самое относится кWiki-Source, он начинается с того же информационного блока и так далее.

Итак, как бы вы справились с этой задачей? Язык программирования - Java, но это не должно иметь значения.

Решение, которое мне пришло в голову, состояло в том, чтобы использовать запрос xpath, но этот запрос был бы довольно сложным для обработки всех пограничных случаев. [обновление] Это было не так сложно, смотрите мое решение ниже! [/ update]

Спасибо!

Ответы на вопрос(9)

Ваш ответ на вопрос