Как мне получить содержимое веб-страницы из WebView?


86

На Android у меня есть WebViewстраница, отображающая страницу.

Как мне получить исходный код страницы, не запрашивая страницу повторно?

Кажется, WebViewдолжен быть какой-то getPageSource()метод, возвращающий строку, но, увы, это не так.

Если я включу JavaScript, какой JavaScript следует использовать в этом вызове для получения содержимого?

webview.loadUrl("javascript:(function() { " +  
    "document.getElementsByTagName('body')[0].style.color = 'red'; " +  
    "})()");  

используйте скрипт jquery и интерфейс js для получения html-содержимого из окна webview window.interface.processHTML ($ (\ "body \"). html ());
DroidBot


Очевидно, вы можете получить ответ в HTML с помощью HTTP-запросов, но если на какой-то странице требуется загрузка данных публикации (например, учетных данных пользователя и т. Д.), Этот подход просто не работает. Я думаю, так оно и должно быть, потому что если бы вы могли это сделать, вы, вероятно, могли бы создать собственное приложение для Android для любого веб-сайта, и это было бы отстой!

Ответы:


161

Я знаю, что это поздний ответ, но я нашел этот вопрос, потому что у меня была такая же проблема. Думаю, я нашел ответ в этом посте на lexandera.com. Приведенный ниже код в основном скопирован с сайта. Кажется, это помогает.

final Context myApp = this;

/* An instance of this class will be registered as a JavaScript interface */
class MyJavaScriptInterface
{
    @JavascriptInterface
    @SuppressWarnings("unused")
    public void processHTML(String html)
    {
        // process the html as needed by the app
    }
}

final WebView browser = (WebView)findViewById(R.id.browser);
/* JavaScript must be enabled if you want it to work, obviously */
browser.getSettings().setJavaScriptEnabled(true);

/* Register a new JavaScript interface called HTMLOUT */
browser.addJavascriptInterface(new MyJavaScriptInterface(), "HTMLOUT");

/* WebViewClient must be set BEFORE calling loadUrl! */
browser.setWebViewClient(new WebViewClient() {
    @Override
    public void onPageFinished(WebView view, String url)
    {
        /* This call inject JavaScript into the page which just finished loading. */
        browser.loadUrl("javascript:window.HTMLOUT.processHTML('<head>'+document.getElementsByTagName('html')[0].innerHTML+'</head>');");
    }
});

/* load a web page */
browser.loadUrl("http://lexandera.com/files/jsexamples/gethtml.html");

6
Помните, что это может быть не исходный HTML-код страницы; содержимое страницы могло динамически изменяться с помощью JavaScript перед onPageFinished()выполнением.
Paul Lammertsma

3
Это здорово, но вызов метода browser.loadUrlв onPageFinishedпричинит onPageFinishedназываться снова. onPageFinishedПеред тем, как позвонить, вы можете проверить, является ли это первым вызовом browser.loadUrl.
Yi H.

Спасибо @Blundell У меня это сработало. Я хотел бы знать, как это можно реализовать как услугу . Поскольку это сервис без макета и веб-просмотра для хранения результатов. Есть ли способ поместить данные в какой-либо другой объект, отличный от webView, чтобы мы могли поместить javascript для получения результирующего html-кода?
Totalys

@Totalys, это еще проще String html = new Scanner(new DefaultHttpClient().execute(new HttpGet("www.the url")).getEntity().getContent(), "UTF-8").useDelimiter("\\A").next();(сокращенно, чтобы поместиться в комментарии :-))
Blundell

1
Не забудьте вставить runOnUiThread (new Runnable () {... в public void processHTML.
CoolMind

34

Согласно выпуску 12987 , ответ Бланделла вылетает (по крайней мере, на моей виртуальной машине 2.3). Вместо этого я перехватываю вызов console.log со специальным префиксом:

// intercept calls to console.log
web.setWebChromeClient(new WebChromeClient() {
    public boolean onConsoleMessage(ConsoleMessage cmsg)
    {
        // check secret prefix
        if (cmsg.message().startsWith("MAGIC"))
        {
            String msg = cmsg.message().substring(5); // strip off prefix

            /* process HTML */

            return true;
        }

        return false;
    }
});

// inject the JavaScript on page load
web.setWebViewClient(new WebViewClient() {
    public void onPageFinished(WebView view, String address)
    {
        // have the page spill its guts, with a secret prefix
        view.loadUrl("javascript:console.log('MAGIC'+document.getElementsByTagName('html')[0].innerHTML);");
    }
});

web.loadUrl("http://www.google.com");

17

Это ответ, основанный на jluckyiv , но я думаю, что лучше и проще изменить Javascript следующим образом.

browser.loadUrl("javascript:HTMLOUT.processHTML(document.documentElement.outerHTML);");

6

Рассматривали ли вы возможность получить HTML отдельно, а затем загрузить его в веб-просмотр?

String fetchContent(WebView view, String url) throws IOException {
    HttpClient httpClient = new DefaultHttpClient();
    HttpGet get = new HttpGet(url);
    HttpResponse response = httpClient.execute(get);
    StatusLine statusLine = response.getStatusLine();
    int statusCode = statusLine.getStatusCode();
    HttpEntity entity = response.getEntity();
    String html = EntityUtils.toString(entity); // assume html for simplicity
    view.loadDataWithBaseURL(url, html, "text/html", "utf-8", url); // todo: get mime, charset from entity
    if (statusCode != 200) {
        // handle fail
    }
    return html;
}

2
Это не будет нести куки.
Кейт Адлер,

1
этот подход запускает диалог CAPTCHA
Hector

4

Мне удалось заставить это работать, используя код из ответа @ jluckyiv, но мне пришлось добавить аннотацию @JavascriptInterface к методу processHTML в MyJavaScriptInterface.

class MyJavaScriptInterface
{
    @SuppressWarnings("unused")
    @JavascriptInterface
    public void processHTML(String html)
    {
        // process the html as needed by the app
    }
}

1

Вам также необходимо аннотировать метод с помощью @JavascriptInterface, если ваш targetSdkVersion> = 17 - потому что в SDK 17 есть новые требования к безопасности, т.е. все методы javascript должны быть аннотированы с помощью @JavascriptInterface. В противном случае вы увидите ошибку типа: Uncaught TypeError: Object [object Object] не имеет метода 'processHTML' с нулевым значением: 1


0

Если вы работаете с kitkat и более поздними версиями, вы можете использовать инструменты удаленной отладки Chrome, чтобы найти все запросы и ответы, входящие и исходящие из вашего веб-просмотра, а также исходный HTML-код просматриваемой страницы.

https://developer.chrome.com/devtools/docs/remote-debugging

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.