Создать отличный парсер - извлекать соответствующий текст из HTML / блогов

Question

Jan 02, 2010, 09:14 PM

text-parsing parsing html-content-extraction html

Создать отличный парсер - извлекать соответствующий текст из HTML / блогов

Я пытаюсь создать обобщенный анализатор HTML, который хорошо работает с сообщениями в блогах. Я хочу указать моему анализатору на URL конкретной записи и получить чистый текст самого сообщения. Мой основной подход (из python) состоял в том, чтобы использовать комбинацию BeautifulSoup / Urllib2, что нормально, но предполагает, что вы знаете правильные теги для записи в блоге. У кого-нибудь есть идеи получше?

Вот некоторые мысли, которые, возможно, кто-то мог бы расширить, о которых у меня еще недостаточно знаний / ноу-хау для реализации.

The unix program 'lynx' seems to parse blog posts especially well - what parser do they use, or how could this be utilized?

Are there any services/parsers that automatically remove junk ads, etc?

In this case, i had a vague notion that it may be an okay assumption that blog posts are usually contained in a certain defining tag with class="entry" or something similar. Thus, it may be possible to create an algorithm that found the enclosing tags with the most clean text between them - any ideas on this?

Спасибо!

Создать отличный парсер - извлекать соответствующий текст из HTML / блогов

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Создать отличный парсер - извлекать соответствующий текст из HTML / блогов

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы