หากคุณไม่ได้ติดตั้งเครื่องมืออื่น ๆ เหล่านี้เพียงแค่ wget และหน้านั้นไม่มีการจัดรูปแบบข้อความและลิงก์ธรรมดา ๆ เช่นซอร์สโค้ดหรือรายการไฟล์คุณสามารถตัด HTML โดยใช้วิธีดังนี้:
wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'
สิ่งนี้ใช้ wget เพื่อถ่ายโอนแหล่งที่มาของหน้าไปยัง STDOUT และกดเพื่อดึง <> คู่ใด ๆ และสิ่งที่อยู่ระหว่างพวกเขา
จากนั้นคุณสามารถเปลี่ยนทิศทางเอาต์พุตของคำสั่ง sed ไปยังไฟล์ที่คุณต้องการสร้างโดยใช้>:
wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt
หมายเหตุ: คุณอาจพบว่ามันมีช่องว่างพิเศษในไฟล์ที่คุณไม่ต้องการ (เช่นบรรทัดจะเยื้องคอลัมน์ไม่กี่)
อาจเป็นการง่ายที่สุดที่จะใช้โปรแกรมแก้ไขข้อความเพื่อจัดระเบียบไฟล์ (หรือฟอร์แมตแหล่งที่มาเมื่อคุณดาวน์โหลดซอร์สโค้ด C)
หากคุณต้องการทำสิ่งง่าย ๆ แบบเดียวกันกับทุกบรรทัดของไฟล์คุณสามารถรวมคำสั่งเพื่อทำสิ่งนั้นในคำสั่ง sed (ที่นี่คือการแยกพื้นที่นำหน้าหนึ่ง):
wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt
.c
แต่คุณต้องเขียนฟังก์ชั่นบางอย่างที่จะแยกรหัสจากหน้าและบันทึกเป็น ไม่ยาก แต่ขึ้นอยู่กับโครงสร้างของหน้า ถ้าคุณให้ลิงค์อาจมีบางคนจะช่วยคุณในเรื่องรหัสที่แน่นอน ไม่อย่างนั้นsed
หรือperl
เป็นเพื่อนของคุณ