ฉันต้องการดึงสิ่งที่อยู่ระหว่างแท็กสองแท็กเหล่านี้<tr> </tr>
- จากเอกสาร html ตอนนี้ฉันไม่มีข้อกำหนด html เฉพาะใด ๆ ที่จะรับประกันการแยกวิเคราะห์ html ฉันเพียงแค่ต้องการสิ่งธรรมดาที่การแข่งขัน<tr>
และ</tr>
และได้รับทุกอย่างในระหว่างและอาจจะมีหลายtr
s ฉันลอง awk ซึ่งใช้งานได้ แต่ด้วยเหตุผลบางอย่างมันทำให้ฉันซ้ำซ้อนของแต่ละแถวที่แยกออกมา
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
จะไปเกี่ยวกับเรื่องนี้ได้อย่างไร
awk
คือการทำงาน แต่ให้ซ้ำกันพยายามที่จะผ่านผลผลิต awk ของคุณจากsort -u
การได้รับพวกเขาที่แตกต่างกัน
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
ของคุณควรจะเป็น: โพสต์ตัวอย่างอินพุตและเอาต์พุตที่คาดหวังหากไม่ได้ผล