ฉันจะรับเนื้อหาหน้าเว็บจาก WebView ได้อย่างไร


86

ใน Android ฉันมีWebViewที่กำลังแสดงหน้า

ฉันจะรับแหล่งที่มาของหน้าได้อย่างไรโดยไม่ต้องขอหน้าอีก

ดูเหมือนว่าWebViewควรมีgetPageSource()วิธีการบางอย่างที่ส่งคืนสตริง แต่อนิจจามันไม่ได้

ถ้าฉันเปิดใช้งาน JavaScript JavaScript ที่เหมาะสมในการเรียกเพื่อรับเนื้อหาคืออะไร?

webview.loadUrl("javascript:(function() { " +  
    "document.getElementsByTagName('body')[0].style.color = 'red'; " +  
    "})()");  

ใช้สคริปต์ jquery และอินเทอร์เฟซ js เพื่อรับเนื้อหา html จาก webview window.interface.processHTML ($ (\ "body \"). html ());
DroidBot


เห็นได้ชัดว่าคุณสามารถรับการตอบกลับใน HTML โดยใช้คำขอ HTTP แต่หากบางเพจต้องการโหลดข้อมูลโพสต์ (เช่นข้อมูลรับรองผู้ใช้เป็นต้น) วิธีนี้ก็จะล้มเหลว ฉันคิดว่านี่เป็นวิธีที่ควรจะเป็นเพราะถ้าคุณทำได้คุณอาจสร้างแอพ android ของคุณเองสำหรับเว็บไซต์ใดก็ได้และนั่นจะเป็นเรื่องที่น่าสนใจ!

คำตอบ:


162

ฉันรู้ว่านี่เป็นคำตอบที่ล่าช้า แต่ฉันพบคำถามนี้เพราะฉันมีปัญหาเดียวกัน ฉันคิดว่าฉันพบคำตอบในโพสต์นี้บน lexandera.com โค้ดด้านล่างนี้เป็นโค้ดแบบตัดแล้ววางจากไซต์ ดูเหมือนว่าจะทำเคล็ดลับ

final Context myApp = this;

/* An instance of this class will be registered as a JavaScript interface */
class MyJavaScriptInterface
{
    @JavascriptInterface
    @SuppressWarnings("unused")
    public void processHTML(String html)
    {
        // process the html as needed by the app
    }
}

final WebView browser = (WebView)findViewById(R.id.browser);
/* JavaScript must be enabled if you want it to work, obviously */
browser.getSettings().setJavaScriptEnabled(true);

/* Register a new JavaScript interface called HTMLOUT */
browser.addJavascriptInterface(new MyJavaScriptInterface(), "HTMLOUT");

/* WebViewClient must be set BEFORE calling loadUrl! */
browser.setWebViewClient(new WebViewClient() {
    @Override
    public void onPageFinished(WebView view, String url)
    {
        /* This call inject JavaScript into the page which just finished loading. */
        browser.loadUrl("javascript:window.HTMLOUT.processHTML('<head>'+document.getElementsByTagName('html')[0].innerHTML+'</head>');");
    }
});

/* load a web page */
browser.loadUrl("http://lexandera.com/files/jsexamples/gethtml.html");

6
ระวังว่านี่อาจไม่ใช่ HTML ดิบของหน้า เนื้อหาของเพจอาจมีการเปลี่ยนแปลงแบบไดนามิกผ่าน JavaScript ก่อนที่จะonPageFinished()ดำเนินการ
Paul Lammertsma

3
มันเยี่ยมมาก แต่การเรียก method browser.loadUrlin onPageFinishedจะทำให้onPageFinishedถูกเรียกอีกครั้ง คุณอาจต้องการที่จะตรวจสอบไม่ว่าจะเป็นสายแรกของหรือไม่ก่อนที่จะเรียกonPageFinished browser.loadUrl
ยี่ฮ.

ขอบคุณ @Blundell มันใช้ได้กับฉัน ฉันต้องการทราบว่าจะนำ ไปใช้เป็นบริการได้อย่างไร เนื่องจากเป็นบริการที่ไม่มีเค้าโครงและมุมมองเว็บในการจัดเก็บผลลัพธ์ มีวิธีใส่ข้อมูลในวัตถุอื่นที่แตกต่างจาก webView เพื่อให้เราสามารถใส่จาวาสคริปต์เพื่อรับโค้ด html ที่เป็นผลลัพธ์ได้หรือไม่
Totalys

@Totalys ที่ง่ายยิ่งขึ้นString html = new Scanner(new DefaultHttpClient().execute(new HttpGet("www.the url")).getEntity().getContent(), "UTF-8").useDelimiter("\\A").next();(ย่อให้พอดีกับความคิดเห็น :-))
Blundell

1
อย่าลืมใส่ runOnUiThread (Runnable ใหม่ () {... ลงใน public void processHTML.
CoolMind

34

ต่อปัญหา 12987คำตอบของ Blundell ขัดข้อง (อย่างน้อยใน 2.3 VM ของฉัน) แต่ฉันสกัดกั้นการโทรไปที่ console.log ด้วยคำนำหน้าพิเศษ:

// intercept calls to console.log
web.setWebChromeClient(new WebChromeClient() {
    public boolean onConsoleMessage(ConsoleMessage cmsg)
    {
        // check secret prefix
        if (cmsg.message().startsWith("MAGIC"))
        {
            String msg = cmsg.message().substring(5); // strip off prefix

            /* process HTML */

            return true;
        }

        return false;
    }
});

// inject the JavaScript on page load
web.setWebViewClient(new WebViewClient() {
    public void onPageFinished(WebView view, String address)
    {
        // have the page spill its guts, with a secret prefix
        view.loadUrl("javascript:console.log('MAGIC'+document.getElementsByTagName('html')[0].innerHTML);");
    }
});

web.loadUrl("http://www.google.com");

17

นี่เป็นคำตอบตามของ jluckyivแต่ฉันคิดว่าการเปลี่ยน Javascript จะดีกว่าและง่ายกว่าดังนี้

browser.loadUrl("javascript:HTMLOUT.processHTML(document.documentElement.outerHTML);");

6

คุณได้พิจารณาดึง HTML แยกจากกันแล้วโหลดลงใน webview หรือไม่?

String fetchContent(WebView view, String url) throws IOException {
    HttpClient httpClient = new DefaultHttpClient();
    HttpGet get = new HttpGet(url);
    HttpResponse response = httpClient.execute(get);
    StatusLine statusLine = response.getStatusLine();
    int statusCode = statusLine.getStatusCode();
    HttpEntity entity = response.getEntity();
    String html = EntityUtils.toString(entity); // assume html for simplicity
    view.loadDataWithBaseURL(url, html, "text/html", "utf-8", url); // todo: get mime, charset from entity
    if (statusCode != 200) {
        // handle fail
    }
    return html;
}

2
สิ่งนี้จะไม่พกคุกกี้
Keith Adler

1
วิธีนี้เรียกใช้กล่องโต้ตอบ CAPTCHA
Hector

4

ฉันจัดการเพื่อให้มันใช้งานได้โดยใช้รหัสจากคำตอบของ @ jluckyiv แต่ฉันต้องเพิ่มคำอธิบายประกอบ @JavascriptInterface ลงในเมธอด processHTML ใน MyJavaScriptInterface

class MyJavaScriptInterface
{
    @SuppressWarnings("unused")
    @JavascriptInterface
    public void processHTML(String html)
    {
        // process the html as needed by the app
    }
}

1

คุณต้องใส่คำอธิบายประกอบวิธีการด้วย @JavascriptInterface ถ้า targetSdkVersion ของคุณคือ> = 17 - เนื่องจากมีข้อกำหนดด้านความปลอดภัยใหม่ใน SDK 17 กล่าวคือเมธอดจาวาสคริปต์ทั้งหมดต้องใส่คำอธิบายประกอบด้วย @JavascriptInterface มิฉะนั้นคุณจะเห็นข้อผิดพลาดเช่น Uncaught TypeError: Object [object Object] ไม่มี method 'processHTML' ที่ null: 1


-1

หากคุณกำลังทำงานกับ kitkat ขึ้นไปคุณสามารถใช้เครื่องมือแก้ไขข้อบกพร่องระยะไกลของ Chrome เพื่อค้นหาคำขอและการตอบกลับทั้งหมดที่เข้าและออกจากการดูเว็บของคุณและซอร์สโค้ด html ของหน้าที่ดู

https://developer.chrome.com/devtools/docs/remote-debugging


คำถามเกี่ยวกับการเข้าถึงโดยใช้โปรแกรม คุณช่วยอธิบายว่าโพสต์ของคุณมีประโยชน์อย่างไร
Ajay Prajapati
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.