ฉันโค้ดตัวแยกวิเคราะห์จำนวนมาก จนถึงตอนนี้ฉันใช้ HtmlUnit เบราว์เซอร์ที่ไม่มีส่วนหัวสำหรับการแยกวิเคราะห์และการทำงานอัตโนมัติของเบราว์เซอร์
ตอนนี้ฉันต้องการแยกงานทั้งสองออก
เนื่องจาก 80% ของงานของฉันเกี่ยวข้องกับการแยกวิเคราะห์ฉันต้องการใช้ตัวแยกวิเคราะห์ HTML แบบใช้แสงเนื่องจากใช้เวลานานใน HtmlUnit ในการโหลดหน้าเว็บครั้งแรกจากนั้นรับแหล่งที่มาและแยกวิเคราะห์
ฉันอยากรู้ว่าตัวแยกวิเคราะห์ HTML ตัวใดดีที่สุด ตัวแยกวิเคราะห์จะดีกว่าถ้าอยู่ใกล้กับตัวแยกวิเคราะห์ HtmlUnit
แก้ไข:
โดยที่ดีที่สุดฉันต้องการคุณสมบัติอย่างน้อยต่อไปนี้:
- ความเร็ว
- ความง่ายดายในการค้นหา HtmlElement ใด ๆ ด้วย "id" หรือ "name" หรือ "tag type"
มันคงจะโอเคสำหรับฉันถ้ามันไม่ทำความสะอาดโค้ด HTML ที่สกปรก ฉันไม่จำเป็นต้องล้างซอร์ส HTML ใด ๆ ฉันต้องการวิธีที่ง่ายที่สุดในการเคลื่อนย้ายข้าม HtmlElements และเก็บเกี่ยวข้อมูลจากพวกเขา