Jakie algorytmy mogę wykorzystać do identyfikacji treści na stronie internetowej

Mam załadowaną stronę internetową w przeglądarce (tzn. Jej pozycjonowanie DOM i elementów jest dla mnie dostępne) i chcę znaleźć element blokowy (lub posortowaną listę tych elementów), który prawdopodobnie zawiera najwięcej treści (jak w ciągły blok tekstu). Celem jest wykluczenie takich rzeczy, jak menu, nagłówki, stopki i tym podobne.

questionAnswers(4)

yourAnswerToTheQuestion