กลยุทธ์สำหรับการรับมือกับหุ่นยนต์ที่ทำงานผิดปกติ


9

ฉันมีเว็บไซต์ที่ด้วยเหตุผลด้านกฎระเบียบอาจไม่ได้รับการจัดทำดัชนีหรือค้นหาโดยอัตโนมัติ ซึ่งหมายความว่าเราต้องป้องกันไม่ให้หุ่นยนต์ทั้งหมดออกไปและป้องกันไม่ให้มีการแพร่กระจายของไซต์

เห็นได้ชัดว่าเรามีไฟล์ robots.txt ซึ่งไม่สามารถทำได้ตั้งแต่เริ่มต้น อย่างไรก็ตามการสังเกตไฟล์ robots.txt เป็นสิ่งที่โรบอตทำงานได้ดีเท่านั้น เมื่อเร็ว ๆ นี้เรามีปัญหาบางอย่างกับหุ่นยนต์ที่ประพฤติตัวไม่ดี ฉันได้กำหนดค่า Apache ให้ห้ามตัวแทนผู้ใช้สองสามคนแต่มันก็ง่ายที่จะเข้าใจ

ดังนั้นคำถามคือมีวิธีการกำหนดค่า Apache (อาจติดตั้งโมดูลบางอย่าง?) เพื่อตรวจสอบพฤติกรรมเหมือนหุ่นยนต์และตอบสนอง? ความคิดอื่น ๆ ?

ในขณะนี้สิ่งที่ฉันทำได้คือห้ามที่อยู่ IP ตามการตรวจสอบบันทึกด้วยตนเองและนั่นไม่ใช่กลยุทธ์ระยะยาวที่ใช้งานได้จริง


ระบุว่าคุณกำลังถามเกี่ยวกับโมดูล Apache (ตรวจสอบ mod_evasive) และวิธีการแก้ปัญหาของคุณอาจเกี่ยวข้องกับกฎการแยกวิเคราะห์แบบกำหนดเองและกฎ iptables หัวข้อนี้อาจเป็นตัวเลือกที่ดีกว่าสำหรับServerFault.comถ้าคุณมีคำถามเกี่ยวกับการบล็อกพฤติกรรมบอทเฉพาะ
danlefree

คำตอบ:


7

คุณสามารถเชื่อมโยงไปยังหน้าที่ซ่อนไว้ซึ่งเมื่อเข้าเยี่ยมชมจะจับผู้ใช้และที่อยู่ IP ของบอทจากนั้นจึงเพิ่มหนึ่งหรือทั้งสองไฟล์ไปยังไฟล์. htaccess ที่บล็อกอย่างถาวร มันเป็นแบบอัตโนมัติดังนั้นคุณไม่ต้องทำอะไรเพื่อดูแลมัน


นั่นเป็นความคิดที่น่าสนใจมากแม้ว่าในกรณีที่พวกเขาใช้ตัวแทนผู้ใช้ที่ทั่วไปมากคุณไม่ต้องการปิดกั้นตัวแทนผู้ใช้ใด ๆ โดยอัตโนมัติ
กริช

ฉันจะติดที่อยู่ IP แล้ว นอกจากนี้หากคุณใช้ที่อยู่ I และดูรูปแบบจากกลุ่มของ IP คุณสามารถบล็อกทั้งหมดได้อย่างง่ายดายด้วยกฎง่ายๆเพียงข้อเดียวแทนที่จะรักษารายชื่อ IP แต่ละรายการที่มีความยาว
John Conde

3
คุณสามารถใช้วิธีการอธิบายจากการหยุดบอทที่ไม่ดีจากการรวบรวมข้อมูลเว็บไซต์ของคุณ แต่ 1) เป็นไปได้ที่จะเลี่ยง (บอทที่ไม่ดี - และผู้เชี่ยวชาญของพวกเขา - อาจเรียนรู้วิธีระบุ honeypots และรู้วิธีหลีกเลี่ยง); และ 2) วิธีนี้อาจบล็อกผู้ใช้ที่ถูกต้องตามกฎหมายซึ่งได้รับการจัดสรร IP ใหม่ที่ถูกขึ้นบัญชีดำว่าเป็นของบ็อตที่ทำงานผิดปกติ หากคุณมีข้อผูกมัดทางกฎหมายหรือข้อบังคับที่จะไม่มีการจัดทำดัชนีเว็บไซต์ของคุณหรือถูกบล็อกไว้โดยอัตโนมัติคุณต้องใช้การรับรองความถูกต้องที่เหมาะสมและให้สิทธิ์การเข้าถึงแก่ผู้ใช้ที่ผ่านการตรวจสอบแล้วเท่านั้น ทุกอย่างอื่นไม่ปลอดภัย
ฟรี Radical

ความคิดดี. แต่ถ้าฉันใช้มันฉันพนันว่าฉันจะกดปุ่ม honeypot โดยไม่ตั้งใจและถูกบล็อกจากเว็บไซต์ของฉันเอง
JW01

@ JW01 สิ่งที่คุณต้องทำเพื่อหลีกเลี่ยงสิ่งที่ไม่ได้เยี่ยมชมเพจที่จัดการสิ่งนี้ เนื่องจากไม่มีเนื้อหาที่ควรทำง่าย
John Conde

2

คุณสามารถ piggyback ในที่ทำงานที่คนอื่นทำในการระบุ IP ที่ไม่ดีโดยใช้โมดูล Apacheซึ่งเชื่อมต่อกับบัญชีดำของโครงการ Honeypot หากคุณทำสิ่งนี้ในปริมาณมากอาจเป็นเรื่องสุภาพที่จะเสนอขายน้ำผึ้ง


ฉันประหลาดใจเมื่อฉันเพิ่มบัญชีดำ IP ของ Honeypot ในเว็บไซต์ของฉัน ปีแห่งความปวดร้าวก็จบลงเพียงแค่ปิดกั้นคนเลว ฉันคิดว่าคุณสามารถตรวจจับบ็อตของเครื่องมือค้นหาด้วยเช่นกัน ดังนั้นบวก 1 สำหรับอันนั้น
JW01

แต่ประเด็นสำคัญของเรื่องนี้คือ: หากคุณมีเพจสาธารณะคาดว่าพวกเขาจะได้รับการจัดทำดัชนี ดังนั้นจำเป็นต้องมีการรับรองความถูกต้องบางอย่าง ดูคำตอบโดยไมเคิลแฮมป์ตัน
JW01

2

ดังที่ Gisle Hannemyr พูดถึงในความคิดเห็นวิธีที่ดีที่สุดในการทำเช่นนี้คือต้องมีการเข้าสู่ระบบของผู้ใช้ทั้งหมดและไม่ได้ให้เนื้อหาที่ถูก จำกัด แก่ผู้ที่ไม่ได้เข้าสู่ระบบ

หากคุณไม่ต้องการการเข้าสู่ระบบด้วยเหตุผลบางอย่างยังมีข้อผิดพลาดอีกสองสามข้อที่คุณสามารถใช้ได้ (ข้อจำกัดความรับผิดชอบ: ทั้งสองข้อนี้เป็นความผิดของฉันบางส่วนหรือทั้งหมด):

  1. OWASP ModSecurity หลักกฎชุดมีจำนวนของกฎการออกแบบมาเพื่อตรวจจับอัตโนมัติแม้ในขณะที่ ธ ปทได้ดำเนินการตามขั้นตอนเพื่อปลอมตัวเป็นเบราว์เซอร์ (เช่นแกล้งทำของสตริง User-Agent) หากคุณอยู่ในการควบคุมเต็มรูปแบบของเซิร์ฟเวอร์ของคุณเช่น VPS เซิร์ฟเวอร์ทุ่มเทหรือสิ่งที่มีขนาดใหญ่กว่าที่แล้วคุณสามารถใช้กฎเหล่านี้ด้วยModSecurity

    ชุดกฎนี้ยังมีกฎอื่น ๆ ที่หมายถึงการหยุดกิจกรรมที่ไม่เหมาะสมที่หลากหลาย หากคุณยังไม่ได้ดูคุณควรแน่นอน

  2. หากคุณไม่ได้อยู่ในการควบคุมเต็มรูปแบบของเซิร์ฟเวอร์ของคุณ (เช่นคุณกำลังอยู่บนเว็บโฮสติ้งที่ใช้ร่วมกัน) และโฮสต์ของคุณไม่ได้ช่วยให้คุณสามารถใช้กฎ ModSecurity ของคุณเองคุณสามารถลองบางสิ่งบางอย่างในระดับแอพลิเคชันเช่นของตัวเองไม่ดี พฤติกรรม ฉันเริ่มต้นโครงการนี้ในปี 2005 เพื่อต่อสู้กับบล็อกสแปมและแครปเปอร์เนื้อหาเช่นที่เกี่ยวข้องกับคุณ สามารถเพิ่มลงในเว็บไซต์ที่ใช้ PHP ได้

    ฉันควรทราบด้วยว่ากฎของพฤติกรรมที่ไม่ดีจำนวนมากได้รวมอยู่ในชุดกฎหลักของ ModSecurity ตราบใดที่คุณเปิดใช้งานกฎเหล่านั้นการทำงานทั้งสองจะค่อนข้างซ้ำซ้อน กฎเหล่านี้มีการเพิ่มความคิดเห็นในชุดกฎหลักซึ่งมีต้นกำเนิดมาจากพฤติกรรมที่ไม่ดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.