คำถามติดแท็ก web-crawlers

โปรแกรมคอมพิวเตอร์ที่เข้าถึงหน้าเว็บเพื่อจุดประสงค์ต่าง ๆ (เพื่อขูดเนื้อหาเพื่อให้ข้อมูลเกี่ยวกับไซต์ของคุณเป็นต้น)

2
สอบการโยกย้ายเธรด Gotchas?
ฉันย้ายเว็บไซต์ไปยังโดเมนใหม่แล้ว ไซต์นั้นค่อนข้างตรงไปตรงมา (ใช้ Jekyll) และทุกอย่างเป็นไปด้วยดี - ยกเว้นการย้ายข้อมูลของเธรด Disqus ฉันประสบความสำเร็จเพียงบางส่วน - กระทู้บางส่วนได้รับการโอนย้ายสำเร็จ แต่ไม่ใช่ทั้งหมด ฉันได้ลองตัวช่วยสร้างการโยกย้ายโดเมน (ซึ่งมีอยู่ไม่กี่รายการ) ตัวแม็พ URL (ที่จับได้ไม่กี่รายการ) และตัวเปลี่ยนเส้นทาง 301 ตัวรวบรวมข้อมูล (ซึ่งติดอยู่นิดหน่อย) แต่หัวข้อที่เหลืออยู่จะไม่ย้ายไม่ว่าฉันจะใช้วิธีใด ดังนั้นฉันคิดว่าฉันถามว่ามี "gotchas" ที่ฉันควรรู้เกี่ยวกับสิ่งนี้หรือไม่ เมื่อคุณเรียกใช้เครื่องมือการย้ายข้อมูลใด ๆ เหล่านี้จะมีข้อความแจ้งว่าจะ "ใช้เวลาสักครู่" นั่นหมายความว่าชั่วโมงหรือไม่ วัน? ฉันไม่สามารถบอกได้ว่ามันใช้งานได้หรือไม่และไม่มีรายงานการบันทึกหรือข้อผิดพลาดที่ฉันเห็น

2
Ask.com sitemap crawler (ดี) หรือไม่
ฉันใช้Ask.comเป็นหนึ่งในเครื่องมือค้นหาเพื่อปิงแผนผังไซต์ของฉัน เมื่อฉันไปปิงแผนที่ไซต์ของฉันวันนี้เพื่อจัดทำดัชนีแผนผังเว็บไซต์ของฉันอีกครั้งเว็บไซต์ ( http://submissions.ask.com/ping ) บอกว่าไม่มีอีกต่อไปแล้วใช่ไหม ฉันได้ทำการค้นหา DNS submissions.ask.comและดูเหมือนว่าAsk.comลบโดเมนย่อยแล้ว แต่คำถามที่พบบ่อยของโปรแกรมรวบรวมข้อมูลเว็บไซต์ของพวกเขายังมีอยู่ในรายการหรือไม่ ความคิดใด ๆ ที่เกิดขึ้นคืออะไร?

3
กลยุทธ์สำหรับการรับมือกับหุ่นยนต์ที่ทำงานผิดปกติ
ฉันมีเว็บไซต์ที่ด้วยเหตุผลด้านกฎระเบียบอาจไม่ได้รับการจัดทำดัชนีหรือค้นหาโดยอัตโนมัติ ซึ่งหมายความว่าเราต้องป้องกันไม่ให้หุ่นยนต์ทั้งหมดออกไปและป้องกันไม่ให้มีการแพร่กระจายของไซต์ เห็นได้ชัดว่าเรามีไฟล์ robots.txt ซึ่งไม่สามารถทำได้ตั้งแต่เริ่มต้น อย่างไรก็ตามการสังเกตไฟล์ robots.txt เป็นสิ่งที่โรบอตทำงานได้ดีเท่านั้น เมื่อเร็ว ๆ นี้เรามีปัญหาบางอย่างกับหุ่นยนต์ที่ประพฤติตัวไม่ดี ฉันได้กำหนดค่า Apache ให้ห้ามตัวแทนผู้ใช้สองสามคนแต่มันก็ง่ายที่จะเข้าใจ ดังนั้นคำถามคือมีวิธีการกำหนดค่า Apache (อาจติดตั้งโมดูลบางอย่าง?) เพื่อตรวจสอบพฤติกรรมเหมือนหุ่นยนต์และตอบสนอง? ความคิดอื่น ๆ ? ในขณะนี้สิ่งที่ฉันทำได้คือห้ามที่อยู่ IP ตามการตรวจสอบบันทึกด้วยตนเองและนั่นไม่ใช่กลยุทธ์ระยะยาวที่ใช้งานได้จริง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.