ทำมิเรอร์บล็อกด้วย wget


9

ฉันพยายามที่จะสะท้อนบล็อกเช่นกับwww.example.comwget

ฉันใช้ wget ด้วยตัวเลือกต่อไปนี้ (ตัวแปรเชลล์ถูกแทนที่อย่างถูกต้อง):

wget -m -p -H -k -E -np \
    -w 1 \
    --random-wait \
    --restrict-file-names=windows \
    -P $folder \
    -Q${quota}m \
    -t 3 \
    --referer=$url \
    -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
    -e robots=off \
    -D $domains
    -- $url

บล็อกมีรูปภาพที่อยู่ในโดเมนอื่น

แม้ว่าฉันจะระบุ-pตัวเลือก (ดาวน์โหลดเนื้อหาของหน้าเชื่อมโยง) ภาพเหล่านี้จะไม่ถูกดาวน์โหลดเว้นแต่ฉันจะระบุแต่ละโดเมนอย่างชัดเจนใน-Dตัวเลือก

หากฉันไม่ใช้-Dตัวเลือกนี้ wget จะติดตามทุกลิงก์ภายนอกwww.example.comและดาวน์โหลดอินเทอร์เน็ตทั้งหมด

เป็นไปได้หรือไม่ที่wgetจะติดตามทุกลิงค์ภายใต้www.example.comและดาวน์โหลดเนื้อหาที่จำเป็นของแต่ละหน้าไม่ว่าจะอยู่ในโดเมนเดียวกันหรือไม่โดยไม่ต้องระบุแต่ละโดเมนอย่างชัดเจน


ฉันชอบที่จะหาคำตอบที่ดีกับคนนี้ด้วย ฉันพบกับสถานการณ์เดียวกันและไม่พบการเรียกใช้ wget เดียวที่ทำ ฉันลงเอยด้วยการใช้wget -N -E -H -k -K -pครั้งแรกและมาพร้อมกับสคริปต์เพื่อดึงภาพที่เชื่อมโยงที่หายไป
lemonsqueeze

5
ตามที่คนนี้ , HTTrackเป็นสำหรับนักฆ่านี้ ฉันจะให้มันยิงในครั้งต่อไปแทนที่จะเป็น wget
lemonsqueeze

สมมติว่าบล็อกของคุณ (ลบเนื้อหาของหน้าเว็บ) ไม่ได้ทอดหลายโดเมนลองเอาทั้งสองเช่นเดียวกับ-D $domains -Hหากไม่มี-Hก็ควรอยู่ในโดเมนของคุณ แต่ยังคงสามารถดึงเนื้อหาหน้าตรงได้แม้ว่าจะอยู่ในโดเมนอื่นก็ตาม
blubberdiblub

คำตอบ:


1

ไม่วิธีเดียวคือการระบุโดเมนที่คุณต้องการให้ติดตามโดยใช้ -D หรือ --domains = [รายชื่อโดเมน] (ในรูปแบบของรายการคั่นด้วยเครื่องหมายจุลภาค)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.