ฉันจะแยกลิงก์ภายนอกทั้งหมดของหน้าเว็บและบันทึกลงในไฟล์ได้อย่างไร


11

ฉันจะแยกลิงก์ภายนอกทั้งหมดของหน้าเว็บและบันทึกลงในไฟล์ได้อย่างไร

หากคุณมีเครื่องมือบรรทัดคำสั่งใด ๆ ที่จะดี

คำตอบ:


18

คุณจะต้องใช้ 2 เครื่องมือlynxและawkลองสิ่งนี้:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

หากคุณต้องการหมายเลขบรรทัดใช้ command nlลองทำดังนี้:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

ฉันไม่คิดว่าสิ่งนี้จะใช้งานได้กับ URL ที่เกี่ยวข้อง
Sridhar Sarnobat

8

นี่คือการปรับปรุงคำตอบของ lelton: คุณไม่ต้องการ awk เลยเพราะ lynx มีตัวเลือกที่มีประโยชน์

lynx -listonly -nonumbers -dump http://www.google.com.br

ถ้าคุณต้องการตัวเลข

lynx -listonly -dump http://www.google.com.br

0
  1. ใช้ซุปสวย ๆเพื่อดึงหน้าเว็บที่เป็นปัญหา
  2. ใช้ awk เพื่อค้นหา URL ทั้งหมดที่ไม่ได้ชี้ไปที่โดเมนของคุณ

ฉันอยากจะแนะนำ Beautiful Soup ผ่านเทคนิคการคัดแยกหน้าจอ


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.