คำถามติดแท็ก jsoup

6
Jsoup SocketTimeoutException: อ่านหมดเวลา
ฉันได้รับSocketTimeoutExceptionเมื่อพยายามแยกวิเคราะห์เอกสาร HTML จำนวนมากโดยใช้ Jsoup ตัวอย่างเช่นฉันได้รับรายการลิงก์: <a href="www.domain.com/url1.html">link1</a> <a href="www.domain.com/url2.html">link2</a> <a href="www.domain.com/url3.html">link3</a> <a href="www.domain.com/url4.html">link4</a> สำหรับแต่ละลิงก์ฉันแยกวิเคราะห์เอกสารที่เชื่อมโยงกับ URL (จากแอตทริบิวต์ href) เพื่อรับข้อมูลอื่น ๆ ในหน้าเหล่านั้น ฉันจึงนึกได้ว่าต้องใช้เวลามาก แต่จะปิดข้อยกเว้นนี้ได้อย่างไรนี่คือการติดตามสแต็กทั้งหมด: java.net.SocketTimeoutException: Read timed out at java.net.SocketInputStream.socketRead0(Native Method) at java.net.SocketInputStream.read(Unknown Source) at java.io.BufferedInputStream.fill(Unknown Source) at java.io.BufferedInputStream.read1(Unknown Source) at java.io.BufferedInputStream.read(Unknown Source) at sun.net.www.http.HttpClient.parseHTTPHeader(Unknown Source) at sun.net.www.http.HttpClient.parseHTTP(Unknown Source) at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source) …
101 java  jsoup 

15
ฉันจะสงวนตัวแบ่งบรรทัดเมื่อใช้ jsoup เพื่อแปลง html เป็นข้อความธรรมดาได้อย่างไร
ฉันมีรหัสต่อไปนี้: public class NewClass { public String noTags(String str){ return Jsoup.parse(str).text(); } public static void main(String args[]) { String strings="<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN \">" + "<HTML> <HEAD> <TITLE></TITLE> <style>body{ font-size: 12px;font-family: verdana, arial, helvetica, sans-serif;}</style> </HEAD> <BODY><p><b>hello world</b></p><p><br><b>yo</b> <a href=\"http://google.com\">googlez</a></p></BODY> </HTML> "; NewClass text = new NewClass(); …
101 java  jsoup 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.