ฉันมีไฟล์ซอร์สโค้ด html สองสามร้อย ฉันต้องการแยกเนื้อหาของ<div>
องค์ประกอบเฉพาะจากแต่ละไฟล์เหล่านี้ดังนั้นฉันจะเขียนสคริปต์เพื่อวนรอบแต่ละไฟล์ โครงสร้างองค์ประกอบเป็นดังนี้:
<div id='the_div_id'>
<div id='some_other_div'>
<h3>Some content</h3>
</div>
</div>
ใครสามารถแนะนำวิธีการที่ฉันสามารถแยก div the_div_id
และองค์ประกอบลูกและเนื้อหาทั้งหมดจากไฟล์โดยใช้บรรทัดคำสั่ง linux?
hxselect
pup
เป็นจู้จี้จุกจิกเพิ่มเติมเกี่ยวกับรูปแบบการป้อนกว่า ยกตัวอย่างเช่นฉันInput is not well-formed. (Maybe try normalize?)
ไปถึงhxselect
จุดที่กำลังpup
แยกวิเคราะห์