ฉันต้องการดึงสิ่งที่อยู่ระหว่างแท็กสองแท็กเหล่านี้<tr> </tr>- จากเอกสาร html ตอนนี้ฉันไม่มีข้อกำหนด html เฉพาะใด ๆ ที่จะรับประกันการแยกวิเคราะห์ html ฉันเพียงแค่ต้องการสิ่งธรรมดาที่การแข่งขัน<tr>และ</tr>และได้รับทุกอย่างในระหว่างและอาจจะมีหลายtrs ฉันลอง awk ซึ่งใช้งานได้ แต่ด้วยเหตุผลบางอย่างมันทำให้ฉันซ้ำซ้อนของแต่ละแถวที่แยกออกมา
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
จะไปเกี่ยวกับเรื่องนี้ได้อย่างไร
awkคือการทำงาน แต่ให้ซ้ำกันพยายามที่จะผ่านผลผลิต awk ของคุณจากsort -uการได้รับพวกเขาที่แตกต่างกัน
'/<tr/{p=1}; p; /<\/tr>/{p=0}'ของคุณควรจะเป็น: โพสต์ตัวอย่างอินพุตและเอาต์พุตที่คาดหวังหากไม่ได้ผล