Результаты поиска по запросу "html-content-extraction"

2 ответа

В Java, как исправить ошибку HTTP 416 Запрошенный диапазон не удовлетворяет? (При загрузке веб-контента с веб-страницы)

Я пытаюсь загрузить HTML-контент веб-страницы и получить статус 416. Я нашел одно решение, которое правильно улучшает код состояния до 200, но все еще не заг...

3 ответа

Извлечение чистого содержимого / текста из HTML-страниц за исключением навигации и содержимого Chrome

Я сканирую новостные сайты и хочу извлечь заголовок новости, реферат новостей (первый абзац) и т. Д. Я подключился к коду синтаксического анализатора webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и ...

5 ответов

PHP - как получить основной контент HTML, такой как Reader Mode в Firefox

в приложениях Android Firefox и Safari iPad мы можем читать только основной контент в «Режиме чтения».читать далее... [http://support.mozilla.org/en-US/kb/how-enable-reader-mode-firefox-android]Как распознать только основной контент в HTML с ...

ТОП публикаций

2 ответа

BeautifulSoup - простой способ получения содержимого без HTML

Я использую этот код, чтобы найти все интересные ссылки на странице: soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+'))И это делает свою работу довольно хорошо. К сожалению внутриaесть много вложенных тегов, например шрифт, bи разные ...

29 ответов

Варианты соскоба HTML? [закрыто]

6 ответов

RegEx для извлечения свойств изображения HTML

Мне нужен шаблон RegEx для извлечения всех свойств тега изображения.Как мы все знаем, существует множество искаженных HTML, поэтому шаблон должен покрывать э...

2 ответа

Как разобрать HTML с C ++ / Qt?

Как я могу разобрать следующий HTML <body> <span style="font-size:11px">12345</span> <a>Hello<a> </body>Я хотел бы получить данные "12345" из "span" с style = "font-size: 11px" с www.testtest.com, но мне нужны только эти данные и ничего ...

7 ответов

Python HTML соскоб

Это не очень удобно, я просто пытаюсь найти URL на веб-странице, где у класса есть определенное значение. Например: <a class="myClass" href="/url/7df028f508c4685ddf65987a0bd6f22e">Я хочу получить значение href. Есть идеи, как это сделать? Может ...

12 ответов

регулярное выражение для извлечения текста из HTML

Я хотел бы извлечь из общей HTML-страницы весь текст (отображается или нет). я бы хотелУдалить любые теги HTMLЛюбой JavaScriptЛюбые стили CSSЕсть ли регулярное выражение (одно или несколько), которое достигнет этого?

8 ответов

BeautifulSoup Grab Видимый текст веб-страницы

В основном, я хочу использовать BeautifulSoup, чтобы захватить строговидимый текст на веб-странице. Например,эта веб-страница [http://www.nytimes.com/2009/12/21/us/21storm.html]мой контрольный пример. И я в основном хочу просто получить основной ...