Jsoup SocketTimeoutException: อ่านหมดเวลา

Question 1

ฉันได้รับSocketTimeoutExceptionเมื่อพยายามแยกวิเคราะห์เอกสาร HTML จำนวนมากโดยใช้ Jsoup

ตัวอย่างเช่นฉันได้รับรายการลิงก์:

<a href="www.domain.com/url1.html">link1</a>
<a href="www.domain.com/url2.html">link2</a>
<a href="www.domain.com/url3.html">link3</a>
<a href="www.domain.com/url4.html">link4</a>

สำหรับแต่ละลิงก์ฉันแยกวิเคราะห์เอกสารที่เชื่อมโยงกับ URL (จากแอตทริบิวต์ href) เพื่อรับข้อมูลอื่น ๆ ในหน้าเหล่านั้น

ฉันจึงนึกได้ว่าต้องใช้เวลามาก แต่จะปิดข้อยกเว้นนี้ได้อย่างไรนี่คือการติดตามสแต็กทั้งหมด:

java.net.SocketTimeoutException: Read timed out
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.read(Unknown Source)
    at java.io.BufferedInputStream.fill(Unknown Source)
    at java.io.BufferedInputStream.read1(Unknown Source)
    at java.io.BufferedInputStream.read(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTPHeader(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTP(Unknown Source)
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
    at java.net.HttpURLConnection.getResponseCode(Unknown Source)
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:381)
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:364)
    at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:143)
    at org.jsoup.helper.HttpConnection.get(HttpConnection.java:132)
    at app.ForumCrawler.crawl(ForumCrawler.java:50)
    at Main.main(Main.java:15)

Question 2

ฉันคิดว่าคุณสามารถทำได้

Jsoup.connect("...").timeout(10 * 1000).get();

ซึ่งตั้งค่าการหมดเวลาเป็น 10 วินาที

Question 3

ตกลง - ฉันพยายามเสนอสิ่งนี้เป็นการแก้ไขคำตอบของ MarcoS แต่การแก้ไขถูกปฏิเสธ อย่างไรก็ตามข้อมูลต่อไปนี้อาจเป็นประโยชน์สำหรับผู้เยี่ยมชมในอนาคต:

ตามที่javadocsค่าเริ่มต้นหมดเวลาสำหรับorg.jsoup.Connectionคือ 30 วินาที

ดังที่ได้กล่าวไปแล้วสามารถตั้งค่าโดยใช้ timeout(int millis)

นอกจากนี้ในฐานะที่เป็นบันทึก OP ในการแก้ไขก็สามารถตั้งค่าโดยใช้timeout(0)ไฟล์. อย่างไรก็ตามในขณะที่ javadocs ระบุ:

การหมดเวลาเป็นศูนย์จะถือว่าเป็นการหมดเวลาที่ไม่มีที่สิ้นสุด

Question 4

มีความผิดพลาดอยู่บนhttps://jsoup.org/apidocs/org/jsoup/Connection.html ระยะหมดเวลาเริ่มต้นไม่ใช่ 30 วินาที 3 วินาที เพียงแค่ดู javadoc ในรหัส มันบอกว่า 3000 ms

Question 5

ฉันมีข้อผิดพลาดเดียวกัน:

java.net.SocketTimeoutException: Read timed out
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.socketRead(SocketInputStream.java:116)
    at java.net.SocketInputStream.read(SocketInputStream.java:171)
    at java.net.SocketInputStream.read(SocketInputStream.java:141)

และมีเพียงการตั้งค่าเท่านั้นที่ใช้ได้ผล.userAgent(Opera)สำหรับฉัน

ดังนั้นฉันจึงใช้Connection userAgent(String userAgent)วิธีการของคลาสการเชื่อมต่อเพื่อตั้งค่าตัวแทนผู้ใช้ Jsoup

สิ่งที่ต้องการ:

Jsoup.connect("link").userAgent("Opera").get();

Question 6

สิ่งนี้ควรใช้งานได้: Jsoup.connect(url.toLowerCase()).timeout(0);.

Question 7

ตั้งค่าหมดเวลาขณะเชื่อมต่อจาก jsoup