Wyodrębnianie czystej treści / tekstu ze stron HTML poprzez wykluczenie treści nawigacyjnych i chromowanych
Czołgam się na stronach z wiadomościami i chcę wyodrębnić tytuł wiadomości, streszczenie wiadomości (pierwszy akapit) itp
Podłączyłem kod parsera webkit, aby łatwo poruszać się po stronie jako drzewo. Aby wyeliminować nawigację i inne treści nie związane z wiadomościami, biorę tekstową wersję artykułu (bez znaczników html, webkit zapewnia api dla tego samego). Następnie uruchamiam algorytm porównywania porównujący tekst różnych artykułów z tej samej strony, co powoduje eliminację podobnego tekstu. Daje mi to treść pomniejszoną o wspólną zawartość nawigacyjną itp.
Pomimo powyższego podejścia, wciąż otrzymuję trochę śmieci w moim ostatnim tekście. Powoduje to wyodrębnienie niepoprawnego Abstract News. Wskaźnik błędu wynosi 5 na 10 artykułów, tj. 50%. Błąd jak w
Czy możesz
Zaproponuj alternatywną strategię ekstrakcji czystej treści,
Czy uczenie się języka naturalnego może / może pomóc w wydobyciu poprawnego streszczenia z tych artykułów?
Jak podszedłbyś do powyższego problemu?
Czy są to jakieś prace naukowe?
pozdrowienia
Ankur Gupta