คำถามติดแท็ก web-crawler

7
จะเป็นพลเมืองที่ดีได้อย่างไรเมื่อรวบรวมข้อมูลเว็บไซต์?
ฉันกำลังจะพัฒนาฟังก์ชั่นบางอย่างที่จะรวบรวมข้อมูลเว็บไซต์สาธารณะต่างๆและประมวลผล / รวมข้อมูลกับพวกเขา ไม่มีอะไรที่น่ากลัวเหมือนการค้นหาที่อยู่อีเมล - ในความเป็นจริงมันเป็นสิ่งที่อาจผลักดันการรับส่งข้อมูลเพิ่มเติมไปยังเว็บไซต์ของพวกเขา แต่ฉันเชือนแช นอกเหนือจากการให้เกียรติrobots.txtมีกฎหรือแนวทางปฏิบัติเป็นลายลักษณ์อักษรหรือไม่เป็นลายลักษณ์อักษรที่ฉันควรจะปฏิบัติตามเพื่อ (ก) หลีกเลี่ยงการปรากฏตัวที่เป็นอันตรายและอาจถูกแบนและ (b) ไม่ทำให้เกิดปัญหาใด ๆ สำหรับเจ้าของเว็บไซต์ / เว็บมาสเตอร์ ตัวอย่างบางอย่างที่ฉันสามารถนึกได้ซึ่งอาจจะสำคัญหรือไม่สำคัญ: จำนวนการร้องขอแบบขนาน เวลาระหว่างคำขอ เวลาระหว่างการรวบรวมข้อมูลทั้งหมด หลีกเลี่ยงการเชื่อมโยงที่อาจเป็นอันตราย (ไม่ต้องการเป็นSpider of Doom - แต่ใครจะรู้ว่านี่เป็นประโยชน์จริง ๆ ) นั่นเป็นเพียงการถ่มน้ำลายใส่ลูกบอลจริงๆ มีผู้ใดบ้างที่เคยลองและทดสอบภูมิปัญญามาแล้วซึ่งมีผลบังคับใช้ในวงกว้างสำหรับใครก็ตามที่ต้องการเขียนหรือใช้สไปเดอร์?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.