Результаты поиска по запросу "html-content-extraction"
Создать отличный парсер - извлекать соответствующий текст из HTML / блогов
Я пытаюсь создать обобщенный анализатор HTML, который хорошо работает с сообщениями в блогах. Я хочу указать моему анализатору на URL конкретной записи и пол...
Какие алгоритмы я могу использовать для идентификации контента на веб-странице
У меня есть веб-страница, загруженная в браузер (т.е. ее DOM и расположение элементов оба доступны для меня), и я хочу найти элемент block (или отсортированный список этих элементов), который, вероятно, содержит большую часть контента (как в ...
Python HTML соскоб
Это не очень удобно, я просто пытаюсь найти URL на веб-странице, где у класса есть определенное значение. Например: <a class="myClass" href="/url/7df028f508c4685ddf65987a0bd6f22e">Я хочу получить значение href. Есть идеи, как это сделать? Может ...
BeautifulSoup - простой способ получения содержимого без HTML
Я использую этот код, чтобы найти все интересные ссылки на странице:
Возможность разбора HTML-документа и построения дерева DOM (Java)
Возможно ли это и какие инструменты можно использовать для анализа html-документа в виде строки или из файла, а затем для построения дерева DOM, чтобы разработчик мог пройти по дереву через некоторый API. Например: DomRoot = ...
Извлечь часть соответствия регулярному выражению
Я хочу, чтобы регулярное выражение для извлечения заголовка из HTML-страницы. В настоящее время у меня есть это: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', ...
регулярное выражение для извлечения текста из HTML
Я хотел бы извлечь из общей HTML-страницы весь текст (отображается или нет). я бы хотелУдалить любые теги HTMLЛюбой JavaScriptЛюбые стили CSSЕсть ли регулярное выражение (одно или несколько), которое достигнет этого?