Wyodrębnianie czystej treści / tekstu ze stron HTML poprzez wykluczenie treści nawigacyjnych i chromowanych

Question

Nov 08, 2009, 04:42 PM

nlp html artificial-intelligence text-extraction html-content-extraction

Wyodrębnianie czystej treści / tekstu ze stron HTML poprzez wykluczenie treści nawigacyjnych i chromowanych

Czołgam się na stronach z wiadomościami i chcę wyodrębnić tytuł wiadomości, streszczenie wiadomości (pierwszy akapit) itp

Podłączyłem kod parsera webkit, aby łatwo poruszać się po stronie jako drzewo. Aby wyeliminować nawigację i inne treści nie związane z wiadomościami, biorę tekstową wersję artykułu (bez znaczników html, webkit zapewnia api dla tego samego). Następnie uruchamiam algorytm porównywania porównujący tekst różnych artykułów z tej samej strony, co powoduje eliminację podobnego tekstu. Daje mi to treść pomniejszoną o wspólną zawartość nawigacyjną itp.

Pomimo powyższego podejścia, wciąż otrzymuję trochę śmieci w moim ostatnim tekście. Powoduje to wyodrębnienie niepoprawnego Abstract News. Wskaźnik błędu wynosi 5 na 10 artykułów, tj. 50%. Błąd jak w

Czy możesz

Zaproponuj alternatywną strategię ekstrakcji czystej treści,

Czy uczenie się języka naturalnego może / może pomóc w wydobyciu poprawnego streszczenia z tych artykułów?

Jak podszedłbyś do powyższego problemu?

Czy są to jakieś prace naukowe?

pozdrowienia

Ankur Gupta