คุณจะแนะนำให้คุณทำการตระเวนเว็บไซต์ซ้ำ ๆ และดาวน์โหลดเฉพาะภาพบางประเภทได้อย่างไร
ฉันพยายามใช้สิ่งนี้เพื่อตระเวนเว็บไซต์และดาวน์โหลดเฉพาะภาพ Jpeg:
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
อย่างไรก็ตามถึงแม้ว่า page1.html จะมีลิงค์ไปยังหน้าย่อยหลายร้อยหน้าซึ่งตัวมันเองมีลิงค์โดยตรงไปยังรูปภาพ แต่ wget รายงานสิ่งต่าง ๆ เช่น "การลบ subpage13.html เนื่องจากมันควรถูกปฏิเสธ" และไม่ดาวน์โหลดภาพใด ๆ เนื่องจากไม่มีการเชื่อมโยงโดยตรงกับ จากหน้าเริ่มต้น
ฉันสมมติว่านี่เป็นเพราะ - ยอมรับฉันกำลังใช้ทั้งโดยตรงในการรวบรวมข้อมูลและกรองเนื้อหาที่จะดาวน์โหลดในขณะที่ฉันต้องการให้มันใช้เพื่อควบคุมการดาวน์โหลดเนื้อหาเท่านั้น ฉันจะรวบรวมข้อมูลลิงก์ทั้งหมดได้อย่างไร แต่ดาวน์โหลดเฉพาะไฟล์ที่มีนามสกุลเช่น * .jpeg เท่านั้น
แก้ไข: นอกจากนี้บางหน้าเป็นแบบไดนามิกและสร้างขึ้นผ่านสคริปต์ CGI (เช่น img.cgi? fo9s0f989wefw90e) แม้ว่าฉันจะเพิ่ม cgi ลงในรายการที่ฉันยอมรับ (เช่น --accept = jpg, jpeg, html, cgi) สิ่งเหล่านี้ก็ยังคงถูกปฏิเสธอยู่เสมอ มีวิธีแก้ไขไหม?