ฉันจะสร้าง CLI Web Spider ที่ใช้คำหลักและตัวกรองเนื้อหาได้อย่างไร
ฉันอยากพบบทความของฉันภายใน (เก่า) ฟอรั่มเลิกวรรณกรรมe-bane.net โมดูลฟอรัมบางส่วนถูกปิดใช้งานและฉันไม่สามารถรับรายการบทความโดยผู้เขียน นอกจากนี้เว็บไซต์ยังไม่ได้จัดทำดัชนีโดยเครื่องมือค้นหาเช่น Google, Yndex เป็นต้น วิธีเดียวในการค้นหาบทความของฉันทั้งหมดคือการเปิดหน้าเก็บถาวรของเว็บไซต์ (รูปที่ 1) จากนั้นฉันจะต้องเลือกปีและเดือนที่แน่นอน - เช่นมกราคม 2013 (รูปที่ 1) และจากนั้นฉันต้องตรวจสอบแต่ละบทความ (รูปที่ 2) ไม่ว่าในตอนแรกจะเขียนชื่อเล่นของฉัน - pa4080 (รูปที่ 3) แต่มีไม่กี่พันบทความ ฉันได้อ่านหัวข้อดังต่อไปนี้ แต่ไม่มีวิธีใดที่ตรงกับความต้องการของฉัน: ใยแมงมุมสำหรับ Ubuntu วิธีเขียน Web spider บนระบบ Linux รับรายการ URL จากเว็บไซต์ ผมจะโพสต์วิธีการแก้ปัญหาของตัวเอง แต่สำหรับฉันมันน่าสนใจ: มีวิธีที่สง่างามกว่านี้ในการแก้ไขงานนี้หรือไม่?