Получить первые строки статьи Википедии

Question

Oct 14, 2009, 10:03 AM

Получить первые строки статьи Википедии

Я получил статью из Википедии и хочу получить первые z строк (или первые x символов, или первые y слов, нене имеет значения) из статьи.

Проблема: я могу получить исходный текст Wiki (через API) или проанализированный HTML (через прямой HTTP-запрос, в конце концов в версии для печати), но как найти первые отображаемые строки? Обычно источник (как html, так и wikitext) начинается с информационных блоков и изображений, и первый реальный текст для отображения находится где-то внизу кода.

Например:Альберт Эйнштейн в Википедии (Версия для печати). Посмотри в коде первую реальную текстовую строку "Альберт Эйнштейн (произносится / ˈælbəRT ˈaɪnstaɪп /; Немецкийalbɐt ˈaɪ̯nʃtaɪ̯п]; 14 марта 1879–18 апреля 1955 г.) был физиком-теоретиком ". не на старте. То же самое относится кWiki-Source, он начинается с того же информационного блока и так далее.

Итак, как бы вы справились с этой задачей? Язык программирования Java, но это не должноне имеет значения.

Решение, которое мне пришло в голову, состояло в том, чтобы использовать запрос xpath, но этот запрос был бы довольно сложным для обработки всех пограничных случаев. [обновление] Это не былоЭто сложно, см. мое решение ниже! [/ update]

Спасибо!"

Получить первые строки статьи Википедии

Ответы на вопрос(9)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Получить первые строки статьи Википедии

Ответы на вопрос(9)

Ваш ответ на вопрос

Популярные вопросы