Результаты поиска по запросу "html-content-extraction"

2 ответа

В Java, как исправить ошибку HTTP 416 Запрошенный диапазон не удовлетворяет? (При загрузке веб-контента с веб-страницы)

Я пытаюсь загрузить HTML-контент веб-страницы и получить статус 416. Я нашел одно решение, которое правильно улучшает код состояния до 200, но все еще не заг...

5 ответов

Что случилось с доступом к объектной модели документа (DOM) с помощью mshtml?

ел бы знать, если есть простой способ для анализа HTML в vb.net. Я знаю, что HTML не является строгим подмножеством XML, но было бы неплохо, если бы его можно было так трактовать. Есть ли что-нибудь, что позволило бы мне анализировать HTML в ...

21 ответ

Как извлечь img src, title и alt из html с помощью php?

Я хотел бы создать страницу, где все изображения, которые находятся на моем сайте, перечислены с заголовком и альтернативным представлением. Я уже написал мне небольшую программу для поиска и загрузки всех HTML-файлов, но теперь я застрял в том, ...

ТОП публикаций

4 ответа

Какие алгоритмы я могу использовать для идентификации контента на веб-странице

У меня есть веб-страница, загруженная в браузер (т.е. ее DOM и расположение элементов оба доступны для меня), и я хочу найти элемент block (или отсортированный список этих элементов), который, вероятно, содержит большую часть контента (как в ...

2 ответа

Как разобрать HTML с C ++ / Qt?

Как я могу разобрать следующий HTML

2 ответа

BeautifulSoup - простой способ получения содержимого без HTML

Я использую этот код, чтобы найти все интересные ссылки на странице:

5 ответов

Возможность разбора HTML-документа и построения дерева DOM (Java)

Возможно ли это и какие инструменты можно использовать для анализа html-документа в виде строки или из файла, а затем для построения дерева DOM, чтобы разработчик мог пройти по дереву через некоторый API. Например: DomRoot = ...

8 ответов

BeautifulSoup Grab Видимый текст веб-страницы

В основном, я хочу использовать BeautifulSoup, чтобы захватить строговидимый текст на веб-странице. Например,эта веб-страница [http://www.nytimes.com/2009/12/21/us/21storm.html]мой контрольный пример. И я в основном хочу просто получить основной ...

2 ответа

Использование модуля Beautiful Soup Python для замены тегов простым текстом

Я используюКрасивый суп [http://www.crummy.com/software/BeautifulSoup/]извлечь «контент» из веб-страниц. Я знаю, что некоторые люди спрашивали ...

2 ответа

BeautifulSoup - простой способ получения содержимого без HTML

Я использую этот код, чтобы найти все интересные ссылки на странице: soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+'))И это делает свою работу довольно хорошо. К сожалению внутриaесть много вложенных тегов, например шрифт, bи разные ...