ฉันพยายามที่จะสะท้อนบล็อกเช่นกับwww.example.com
wget
ฉันใช้ wget ด้วยตัวเลือกต่อไปนี้ (ตัวแปรเชลล์ถูกแทนที่อย่างถูกต้อง):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
บล็อกมีรูปภาพที่อยู่ในโดเมนอื่น
แม้ว่าฉันจะระบุ-p
ตัวเลือก (ดาวน์โหลดเนื้อหาของหน้าเชื่อมโยง) ภาพเหล่านี้จะไม่ถูกดาวน์โหลดเว้นแต่ฉันจะระบุแต่ละโดเมนอย่างชัดเจนใน-D
ตัวเลือก
หากฉันไม่ใช้-D
ตัวเลือกนี้ wget จะติดตามทุกลิงก์ภายนอกwww.example.com
และดาวน์โหลดอินเทอร์เน็ตทั้งหมด
เป็นไปได้หรือไม่ที่wget
จะติดตามทุกลิงค์ภายใต้www.example.com
และดาวน์โหลดเนื้อหาที่จำเป็นของแต่ละหน้าไม่ว่าจะอยู่ในโดเมนเดียวกันหรือไม่โดยไม่ต้องระบุแต่ละโดเมนอย่างชัดเจน
สมมติว่าบล็อกของคุณ (ลบเนื้อหาของหน้าเว็บ) ไม่ได้ทอดหลายโดเมนลองเอาทั้งสองเช่นเดียวกับ
—
blubberdiblub
-D $domains
-H
หากไม่มี-H
ก็ควรอยู่ในโดเมนของคุณ แต่ยังคงสามารถดึงเนื้อหาหน้าตรงได้แม้ว่าจะอยู่ในโดเมนอื่นก็ตาม
wget -N -E -H -k -K -p
ครั้งแรกและมาพร้อมกับสคริปต์เพื่อดึงภาพที่เชื่อมโยงที่หายไป