Извлечение чистого содержимого / текста из HTML-страниц за исключением навигации и содержимого Chrome

Я сканирую новостные сайты и хочу извлечь заголовок новости, реферат новостей (первый абзац) и т. Д.

Я подключился к коду синтаксического анализатора webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и другой не новостной контент, я беру текстовую версию статьи (за исключением тегов html, webkit предоставляет api для того же). Затем я запускаю алгоритм сравнения, сравнивая различные статьиТекст с того же сайта приводит к тому, что аналогичный текст удаляется. Это дает мне контент минус общий контент навигации и т. Д.

Несмотря на вышеупомянутый подход, я все еще получаю довольно много мусора в своем окончательном тексте. Это приводит к некорректному извлечению аннотации новостей. Уровень ошибок 5 в 10 статье, то есть 50%. Ошибка как в

Ты можешь

Предложить альтернативную стратегию извлечения чистого контента,

Поможет ли / может ли изучение естественного языка обрабатывать правильные рефераты из этих статей?

Как бы вы подошли к вышеупомянутой проблеме?

Это какие-то исследовательские работы на одно и то же?

С уважением

Анкур Гупта

Ответы на вопрос(3)

Ваш ответ на вопрос