Получить первые строки статьи Википедии

Question

Oct 14, 2009, 12:03 PM

Получить первые строки статьи Википедии

Я получил статью из Википедии и хочу получить первые z строки (или первые x символов, или первые y слов, не имеет значения) из статьи.

Проблема: я могу получить исходный текст Wiki (через API) или проанализированный HTML (через прямой HTTP-запрос, в конце концов в версии для печати), но как найти первые отображаемые строки? Обычно источник (как html, так и wikitext) начинается с информационных блоков и изображений, и первый реальный текст для отображения находится где-то внизу кода.

Например:Альберт Эйнштейн в Википедии (Версия для печати). Посмотри в коде, первая реальная текстовая строка«Альберт Эйнштейн (произносится как ˈælbərt ˈaɪnstaɪn /; немецкий: [ˈalbɐt ˈaɪ̯nʃtaɪ̯n]; 14 марта 1879–18 апреля 1955 года) был физиком-теоретиком». не на старте. То же самое относится кWiki-Source, он начинается с того же информационного блока и так далее.

Итак, как бы вы справились с этой задачей? Язык программирования - Java, но это не должно иметь значения.

Решение, которое мне пришло в голову, состояло в том, чтобы использовать запрос xpath, но этот запрос был бы довольно сложным для обработки всех пограничных случаев. [обновление] Это было не так сложно, смотрите мое решение ниже! [/ update]

Спасибо!

Получить первые строки статьи Википедии

Ответы на вопрос(9)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Получить первые строки статьи Википедии

Ответы на вопрос(9)

Ваш ответ на вопрос

Популярные вопросы