มีตัวเลือกใดบ้างในการตรวจหาโปรแกรมรวบรวมข้อมูลเว็บที่ไม่ต้องการให้ตรวจพบ
(ฉันรู้ว่าเทคนิคการตรวจจับรายชื่อจะช่วยให้โปรแกรมเมอร์โปรแกรมรวบรวมข้อมูลลักลอบที่ชาญฉลาดสามารถสร้างสไปเดอร์ได้ดีขึ้น แต่ฉันไม่คิดว่าเราจะสามารถบล็อกโปรแกรมรวบรวมข้อมูลการลักลอบอัจฉริยะได้อีกต่อไปมีเพียงคนที่ทำผิดพลาดเท่านั้น)
ฉันไม่ได้พูดถึงโปรแกรมรวบรวมข้อมูลที่ดีเช่น googlebot และ Yahoo! Slurp. ฉันคิดว่าบอทดีถ้ามัน:
- ระบุตัวเองว่าเป็นบอทในสตริงตัวแทนผู้ใช้
- อ่าน robots.txt (และปฏิบัติตาม)
ฉันกำลังพูดถึงโปรแกรมรวบรวมข้อมูลที่ไม่ดีซึ่งซ่อนตัวอยู่หลังตัวแทนผู้ใช้ทั่วไปโดยใช้แบนด์วิดท์ของฉันและไม่เคยให้อะไรตอบแทนฉันเลย
มีช่องดักบางส่วนที่สามารถสร้างรายการปรับปรุงได้ (ขอบคุณ Chris, gs) :
- การเพิ่มไดเรกทอรีที่แสดงรายการเท่านั้น (ทำเครื่องหมายว่าไม่อนุญาต) ใน robots.txt
- การเพิ่มลิงก์ที่มองไม่เห็น (อาจทำเครื่องหมายว่า rel = "nofollow"?)
- style = "display: none;" บนลิงค์หรือคอนเทนเนอร์หลัก
- วางไว้ใต้องค์ประกอบอื่นที่มีดัชนี z สูงกว่า
- ตรวจสอบว่าใครไม่เข้าใจการใช้อักษรตัวพิมพ์ใหญ่
- ตรวจสอบว่าใครพยายามโพสต์คำตอบ แต่แคปต์ชาล้มเหลวเสมอ
- ตรวจจับคำขอ GET ไปยังรีซอร์ส POST เท่านั้น
- ตรวจจับช่วงเวลาระหว่างคำขอ
- ตรวจหาลำดับของหน้าที่ร้องขอ
- ตรวจสอบว่าใคร (อย่างสม่ำเสมอ) ร้องขอทรัพยากร https ผ่าน http
- ตรวจสอบว่าใครไม่ขอไฟล์ภาพ (รวมกับรายชื่อตัวแทนผู้ใช้ของเบราว์เซอร์ที่สามารถใช้รูปภาพที่รู้จักกันดี)
กับดักบางอย่างจะถูกกระตุ้นโดยบอท 'ดี' และ 'ไม่ดี' คุณสามารถรวมสิ่งเหล่านี้เข้ากับรายการที่อนุญาต:
- มันทำให้เกิดกับดัก
- มันขอ
robots.txt
? - อย่าทำกับดักอื่นเพราะมันเชื่อฟัง
robots.txt
สิ่งสำคัญอีกประการหนึ่งคือ:
โปรดพิจารณาคนตาบอดโดยใช้โปรแกรมอ่านหน้าจอ: ให้วิธีการติดต่อกับคุณแก่ผู้อื่นหรือแก้ Captcha (ที่ไม่ใช่รูปภาพ) เพื่อเรียกดูต่อไป
มีวิธีใดบ้างในการตรวจจับโปรแกรมรวบรวมข้อมูลเว็บโดยอัตโนมัติที่พยายามปกปิดตัวเองว่าเป็นผู้เยี่ยมชมที่เป็นมนุษย์ทั่วไป
อัปเดต
คำถามไม่ใช่: ฉันจะตรวจจับโปรแกรมรวบรวมข้อมูลทุกตัวได้อย่างไร คำถามคือฉันจะเพิ่มโอกาสในการตรวจพบโปรแกรมรวบรวมข้อมูลได้อย่างไร
สไปเดอร์บางตัวดีมากและแยกวิเคราะห์และเข้าใจ html, xhtml, css javascript, VB script และอื่น ๆ ...
ฉันไม่มีภาพลวงตา: ฉันจะไม่สามารถเอาชนะพวกมันได้
อย่างไรก็ตามคุณจะแปลกใจว่าซอฟต์แวร์รวบรวมข้อมูลบางตัวโง่แค่ไหน ด้วยตัวอย่างที่ดีที่สุดของความโง่เขลา (ในความคิดของฉัน) คือ: ส่ง URL ทั้งหมดเป็นตัวพิมพ์เล็กก่อนที่จะร้องขอ
แล้วมีโปรแกรมรวบรวมข้อมูลจำนวนมากที่ 'ไม่ดีพอ' ที่จะหลีกเลี่ยงกับดักต่างๆ