Какие алгоритмы я могу использовать для идентификации контента на веб-странице

Question

Jan 04, 2010, 01:22 PM

webpage html-content-extraction algorithm

Какие алгоритмы я могу использовать для идентификации контента на веб-странице

У меня есть веб-страница, загруженная в браузер (т.е. ее DOM и расположение элементов оба доступны для меня), и я хочу найти элемент block (или отсортированный список этих элементов), который, вероятно, содержит большую часть контента (как в непрерывный блок текста). Цель состоит в том, чтобы исключить такие вещи, как меню, верхние и нижние колонтитулы и тому подобное.

Какие алгоритмы я могу использовать для идентификации контента на веб-странице

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Какие алгоритмы я могу использовать для идентификации контента на веб-странице

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы