คำถามติดแท็ก web-crawler

4
บริษัท มีสิทธิ์ในการรวบรวมข้อมูลเว็บไซต์ของฉันหรือไม่
ฉันได้พบว่า McAfee SiteAdvisor ได้รายงานว่าเว็บไซต์ของฉันเป็น"อาจจะมีปัญหาด้านความปลอดภัย" ฉันสนใจนิดหน่อยเกี่ยวกับสิ่งที่ McAfee คิดเกี่ยวกับเว็บไซต์ของฉัน (ฉันสามารถรักษาความปลอดภัยให้ตัวเองได้และถ้าไม่ใช่ McAfee แน่นอนไม่ใช่ บริษัท ที่ฉันขอความช่วยเหลือขอบคุณมาก) แต่สิ่งที่รบกวนจิตใจฉันก็คือพวกเขามีเว็บไซต์รวบรวมข้อมูลของฉันโดยไม่ได้รับอนุญาตจากฉัน เพื่อชี้แจง: ยังไม่มีเนื้อหาในเว็บไซต์ของฉันเพียงแค่มีตัวยึดและไฟล์สำหรับการใช้งานส่วนตัวของฉัน ไม่มี ToS คำถามของฉันคือ: McAffee มีสิทธิ์ดาวน์โหลดเนื้อหาจาก / รวบรวมข้อมูลเว็บไซต์ของฉันหรือไม่ ฉันสามารถห้ามไม่ให้พวกเขาทำเช่นนั้นได้หรือไม่? ฉันมีความรู้สึกว่าควรมีหลักการ "ปราสาทของฉันกฎของฉัน" บางอย่าง แต่โดยทั่วไปฉันไม่รู้อะไรเลยเกี่ยวกับกฎหมายทั้งหมด อัปเดต:ฉันน่าจะพูดถึงผู้ให้บริการเซิร์ฟเวอร์ของฉันว่าส่งอีเมลถึงฉันเกี่ยวกับการค้นพบของ SiteAdvisor เป็นประจำ - นั่นคือสิ่งที่ฉันค้นพบเกี่ยวกับ 'อันดับ' ของพวกเขาและนั่นคือสาเหตุที่ฉันรำคาญ

3
ไซต์ตรวจจับบอทหลังพร็อกซีหรือเครือข่าย บริษัท ได้อย่างไร
เว็บไซต์ขนาดใหญ่ (เช่น Wikipedia) จัดการกับบอทที่อยู่เบื้องหลัง IP masker อื่น ๆ อย่างไร ตัวอย่างเช่นในมหาวิทยาลัยของฉันทุกคนค้นหา Wikipedia ทำให้มันเป็นภาระที่สำคัญ แต่เท่าที่ฉันรู้ Wikipedia สามารถรู้ได้แค่ IP ของเราเตอร์ของมหาวิทยาลัยเท่านั้นดังนั้นถ้าฉันตั้งค่าบอท "unleashed" (ด้วยความล่าช้าเพียงเล็กน้อยระหว่างการร้องขอ) Wikipedia สามารถห้ามบอทของฉันได้โดยไม่ต้องห้ามทั้งองค์กร ไซต์จะห้าม IP จริง ๆ หลังเครือข่ายองค์กรได้หรือไม่

4
ค้นหาช่วง IP ทั้งหมดที่เป็นของ ISP ที่เฉพาะเจาะจง
ฉันมีปัญหากับบุคคลบางคนที่คอยขูดไซต์ของฉันอย่างรุนแรง การสิ้นเปลืองทรัพยากรแบนด์วิดท์และ CPU ฉันได้ติดตั้งระบบที่ใช้บันทึกการเข้าถึงเว็บเซิร์ฟเวอร์ของฉันแล้วเพิ่ม IP ใหม่แต่ละรายการลงในฐานข้อมูลติดตามจำนวนคำขอที่ทำจาก IP นั้นจากนั้นถ้า IP เดียวกันนั้นผ่านเกณฑ์ที่กำหนดไว้ภายใน ในช่วงเวลาหนึ่งมันถูกบล็อกผ่าน iptables มันอาจฟังดูละเอียด แต่เท่าที่ฉันรู้ไม่มีวิธีแก้ไขปัญหาล่วงหน้าที่ออกแบบมาเพื่อ จำกัด IP ที่แน่นอนกับแบนด์วิดท์ / คำขอจำนวนหนึ่ง วิธีนี้ใช้งานได้ดีสำหรับโปรแกรมรวบรวมข้อมูลส่วนใหญ่ แต่บุคคลที่มีความมุ่งมั่นมากกำลังรับไอพีใหม่จากกลุ่มผู้ให้บริการอินเทอร์เน็ตของเขา / เธอทุกครั้งที่ถูกบล็อก ฉันต้องการบล็อก ISP ทั้งหมด แต่ไม่รู้จะทำอย่างไร การทำ whois กับ IP ตัวอย่างบางอย่างฉันเห็นได้ว่าพวกเขาทั้งหมดใช้ "netname", "mnt-by" และ "origin / AS" เดียวกัน มีวิธีที่ฉันสามารถสืบค้นฐานข้อมูล ARIN / RIPE สำหรับเครือข่ายย่อยทั้งหมดโดยใช้ mnt-by / AS / netname เดียวกันได้หรือไม่ …

5
'บอตที่ไม่ดี' เหล่านี้ค้นหาเว็บเซิร์ฟเวอร์ที่ปิดของฉันได้อย่างไร
ฉันได้ติดตั้ง Apache มาแล้วและดูที่ access.log ของฉันอย่างรวดเร็วแสดงว่า IP ที่ไม่รู้จักทั้งหมดกำลังเชื่อมต่อส่วนใหญ่มีรหัสสถานะ 403, 404, 400, 408 ฉันไม่รู้ว่าพวกเขากำลังค้นหาอะไร IP ของฉันเพราะฉันใช้เพื่อการใช้งานส่วนตัวและเพิ่ม robots.txt โดยหวังว่ามันจะทำให้เครื่องมือค้นหาหายไป ฉันบล็อกดัชนีและไม่มีอะไรสำคัญเลย บอทเหล่านี้ (หรือคน) ค้นหาเซิร์ฟเวอร์ได้อย่างไร มันเป็นเรื่องธรรมดาหรือเปล่าที่จะเกิดขึ้น? การเชื่อมต่อเหล่านี้เป็นอันตราย / ฉันจะทำอะไรได้บ้าง? นอกจากนี้ IP จำนวนมากมาจากทุกประเทศและไม่แก้ไขชื่อโฮสต์ นี่คือตัวอย่างของสิ่งที่เกิดขึ้น: ในการกวาดครั้งใหญ่บอทนี้พยายามค้นหา phpmyadmin: "GET /w00tw00t.at.blackhats.romanian.anti-sec:) HTTP/1.1" 403 243 "-" "ZmEu" "GET /3rdparty/phpMyAdmin/scripts/setup.php HTTP/1.1" 404 235 "-" "ZmEu" "GET /admin/mysql/scripts/setup.php HTTP/1.1" 404 227 "-" …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.