Utwórz Wielki Parser - Wyodrębnij odpowiedni tekst z HTML / blogów

Question

Jul 18, 2009, 09:27 AM

html-content-extraction text-parsing html parsing

Utwórz Wielki Parser - Wyodrębnij odpowiedni tekst z HTML / blogów

Próbuję utworzyć uogólniony parser HTML, który działa dobrze na blogach. Chcę wskazać mój analizator składni na określony adres URL entrie i odzyskać czysty tekst samego posta. Moje podstawowe podejście (z python) polegało na użyciu kombinacji BeautifulSoup / Urllib2, co jest w porządku, ale zakłada, że znasz odpowiednie tagi dla wpisu na blogu. Czy ktoś ma jakieś lepsze pomysły?

Oto kilka myśli, które ktoś mógłby rozwinąć, że nie mam jeszcze wystarczającej wiedzy / know-how do wdrożenia.

Program unix „lynx” wydaje się szczególnie dobrze analizować wpisy na blogu - jakiego parsera używają lub jak można to wykorzystać?

Czy są jakieś usługi / analizatory, które automatycznie usuwają niechciane reklamy itp.?

W tym przypadku miałem mgliste pojęcie, że może być dobrym założeniem, że posty na blogu są zwykle zawarte w pewnym znaczniku definiującym z class = „entry” lub czymś podobnym. Zatem możliwe jest stworzenie algorytmu, który znalazł otaczające znaczniki z najbardziej czystym tekstem między nimi - wszelkie pomysły na ten temat?

Dzięki!