Результаты поиска по запросу "html-content-extraction"

4 ответа

Какие алгоритмы я могу использовать для идентификации контента на веб-странице

У меня есть веб-страница, загруженная в браузер (т.е. ее DOM и расположение элементов оба доступны для меня), и я хочу найти элемент block (или отсортированный список этих элементов), который, вероятно, содержит большую часть контента (как в ...

8 ответов

BeautifulSoup Grab Видимый текст веб-страницы

В основном, я хочу использовать BeautifulSoup, чтобы захватить строговидимый текст на веб-странице. Например,эта веб-страница [http://www.nytimes.com/2009/12/21/us/21storm.html]мой контрольный пример. И я в основном хочу просто получить основной ...

3 ответа

Извлечение чистого содержимого / текста из HTML-страниц за исключением навигации и содержимого Chrome

ТОП публикаций

29 ответов

Варианты соскоба HTML? [закрыто]

2 ответа

BeautifulSoup - простой способ получения содержимого без HTML

Я использую этот код, чтобы найти все интересные ссылки на странице: soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+'))И это делает свою работу довольно хорошо. К сожалению внутриaесть много вложенных тегов, например шрифт, bи разные ...

2 ответа

Как разобрать HTML с C ++ / Qt?

Как я могу разобрать следующий HTML

6 ответов

RegEx для извлечения свойств изображения HTML

Мне нужен шаблон RegEx для извлечения всех свойств тега изображения.Как мы все знаем, существует множество искаженных HTML, поэтому шаблон должен покрывать э...

8 ответов

Извлечь часть соответствия регулярному выражению

5 ответов

PHP - как получить основной контент HTML, такой как Reader Mode в Firefox

в приложениях Android Firefox и Safari iPad мы можем читать только основной контент в «Режиме чтения».читать далее... [http://support.mozilla.org/en-US/kb/how-enable-reader-mode-firefox-android]Как распознать только основной контент в HTML с ...

5 ответов

Возможность разбора HTML-документа и построения дерева DOM (Java)

Возможно ли это и какие инструменты можно использовать для анализа html-документа в виде строки или из файла, а затем для построения дерева DOM, чтобы разработчик мог пройти по дереву через некоторый API. Например: DomRoot = ...