ฉันได้รับSocketTimeoutException
เมื่อพยายามแยกวิเคราะห์เอกสาร HTML จำนวนมากโดยใช้ Jsoup
ตัวอย่างเช่นฉันได้รับรายการลิงก์:
<a href="www.domain.com/url1.html">link1</a>
<a href="www.domain.com/url2.html">link2</a>
<a href="www.domain.com/url3.html">link3</a>
<a href="www.domain.com/url4.html">link4</a>
สำหรับแต่ละลิงก์ฉันแยกวิเคราะห์เอกสารที่เชื่อมโยงกับ URL (จากแอตทริบิวต์ href) เพื่อรับข้อมูลอื่น ๆ ในหน้าเหล่านั้น
ฉันจึงนึกได้ว่าต้องใช้เวลามาก แต่จะปิดข้อยกเว้นนี้ได้อย่างไรนี่คือการติดตามสแต็กทั้งหมด:
java.net.SocketTimeoutException: Read timed out
at java.net.SocketInputStream.socketRead0(Native Method)
at java.net.SocketInputStream.read(Unknown Source)
at java.io.BufferedInputStream.fill(Unknown Source)
at java.io.BufferedInputStream.read1(Unknown Source)
at java.io.BufferedInputStream.read(Unknown Source)
at sun.net.www.http.HttpClient.parseHTTPHeader(Unknown Source)
at sun.net.www.http.HttpClient.parseHTTP(Unknown Source)
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
at java.net.HttpURLConnection.getResponseCode(Unknown Source)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:381)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:364)
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:143)
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:132)
at app.ForumCrawler.crawl(ForumCrawler.java:50)
at Main.main(Main.java:15)