Очистка динамически генерируемого HTML внутри приложения Android

В настоящее время я пишу приложение для Android, которое, помимо прочего, использует текстовую информацию с веб-сайтов, которые мне не принадлежат. Кроме того, некоторые страницы требуют аутентификации.

Для некоторых страниц я смог войти в систему и получить HTML-код, используя BasicNameValuePairs и HTTPClient со связанными объектами.

К сожалению, эти методы извлекают источник веб-страницы без запуска функций JavaScript, которые обычно запускаются браузером (даже Android Webview). Мне нужен текст, который извлекают некоторые из этих скриптов.

Я провел свое исследование, но все, что я нашел, - это догадки & amp; очень запутанно Я в порядке, игнорируя страницы, которые требуют входа в систему на данный момент. Кроме того, я готов опубликовать любой код, который может быть полезен для построения решения; Это самостоятельный проект.

Какие-либо конкретные решения для очистки HTML-результата от вызовов JavaScript? Пример будет абсолютно первоклассным.

 bhekman19 июн. 2012 г., 03:11
Примечание. Многие потоки, которые я видел, предлагают заглянуть в "Rhino", но я пока не нашел способа заставить его работать. Rhino:mozilla.org/rhino/tutorial.html

Ответы на вопрос(2)

Решение Вопроса

Вышеупомянутые решения очень медленные и ограничивают вас до 1 URL-адреса (ну, не совсем, но я осмелюсь вам собрать 10 URL-адресов с Rhino, пока ваш пользователь с нетерпением ждет результатов).

Альтернативой является использование решения для очистки облака. Вы получаете выгоду, не теряя пропускную способность телефона при загрузке контента, который вы не используете.

Попробуйте это решение:Bobik Java SDK

Это дает вам возможность очистить до сотен сайтов в считанные секунды

 24 мая 2015 г., 21:46
usebobik.com - это просто рекламный центр.
 24 июл. 2012 г., 21:58
Благодарю. Кстати, я написал подробную статью о преимуществах использования Bobik наzscraper.wordpress.com/2012/07/03/…
 bhekman26 июн. 2012 г., 23:46
Мое решение работает достаточно хорошо для его применения, но я дам вам согласие, так как другие, похоже, сочли ваш ответ полезным. Спасибо & amp; престижность.
 26 мая 2015 г., 06:18
Служба была перемещена вwebcrawling.net

Окончательный успех:

Rhino. Used this jar file.

Другие вещи, которые я пробовал:

HttpClient provided by Android Cannot run javascript HtmlUnit 4 hours, no success. Also huge, added 12 mb to my apk. SL4A Finally compiled. Used THIS guide to set-up. Abandoned as overkill for a simple rhino jar.

Вещи, которые могут работать:

Selenium

Дальнейшие результаты будут опубликованы. Другие результаты будут добавлены, если опубликовано.

Примечание: многие из перечисленных выше опций ссылаются друг на друга. Я думаю, что носорог включен в sl4a и htmlunit. Кроме того, я думаю, что htmlunit содержит селен.

 11 мая 2016 г., 17:33
Ссылка Rhino теперь дает указатель на SL4A. Банки с носорогом там нет.

Ваш ответ на вопрос