นอกเหนือจากการเชื่อฟัง robots.txt ให้เชื่อฟังnofollow
และnoindex
ใน<meta>
องค์ประกอบและลิงก์:
มีหลายคนที่เชื่อว่า robots.txt ไม่ใช่วิธีที่เหมาะสมในการบล็อกการจัดทำดัชนีและเนื่องจากมุมมองดังกล่าวได้สั่งให้เจ้าของไซต์จำนวนมากเชื่อมั่นใน<meta name="robots" content="noindex">
แท็กเพื่อบอกให้โปรแกรมรวบรวมข้อมูลเว็บไม่ทำดัชนีหน้าเว็บ
หากคุณพยายามสร้างกราฟของการเชื่อมต่อระหว่างเว็บไซต์ (สิ่งที่คล้ายกับ PageRank)
(และ<meta name="robots" content="nofollow">
) ควรจะระบุว่าเว็บไซต์ต้นทางไม่เชื่อถือไซต์ปลายทางเพียงพอที่จะให้การรับรองที่เหมาะสม ดังนั้นในขณะที่คุณสามารถจัดทำดัชนีเว็บไซต์ปลายทางได้คุณไม่ควรเก็บความสัมพันธ์ระหว่างเว็บไซต์ทั้งสองไว้
SEO เป็นศิลปะมากกว่าวิทยาศาสตร์จริงและฝึกฝนโดยคนจำนวนมากที่รู้ว่าพวกเขากำลังทำอะไรและคนจำนวนมากที่อ่านบทสรุปผู้บริหารของคนที่รู้ว่าพวกเขากำลังทำอะไรอยู่ คุณจะพบกับปัญหาที่คุณจะถูกบล็อกจากเว็บไซต์เพื่อทำสิ่งที่ไซต์อื่น ๆ พบว่ายอมรับได้อย่างสมบูรณ์เนื่องจากกฎบางคนได้ยินหรืออ่านในบล็อกโพสต์บน SEOmoz ที่อาจหรืออาจตีความไม่ถูกต้อง
เนื่องจากองค์ประกอบของมนุษย์นั้นเว้นแต่ว่าคุณเป็น Google, Microsoft หรือ Yahoo! คุณจะได้รับการสันนิษฐานว่าเป็นอันตรายเว้นแต่จะพิสูจน์เป็นอย่างอื่น คุณต้องใช้ความระมัดระวังเป็นพิเศษในการดำเนินการราวกับว่าคุณไม่ได้เป็นภัยคุกคามต่อเจ้าของเว็บไซต์และดำเนินการตามวิธีการที่คุณต้องการให้โปรแกรมรวบรวมข้อมูลที่อาจเป็นอันตราย
- หยุดการรวบรวมข้อมูลเว็บไซต์เมื่อคุณตรวจพบว่าคุณถูกบล็อก: 403 / 401s บนหน้าเว็บที่คุณรู้ว่าทำงานการควบคุมปริมาณเวลานอก ฯลฯ
- หลีกเลี่ยงการรวบรวมข้อมูลที่ละเอียดถี่ถ้วนในช่วงเวลาสั้น ๆ : รวบรวมข้อมูลส่วนหนึ่งของเว็บไซต์และกลับมาใหม่ในภายหลัง (ไม่กี่วันต่อมา) เพื่อรวบรวมข้อมูลส่วนอื่น อย่าทำการร้องขอแบบขนาน
- หลีกเลี่ยงการรวบรวมข้อมูลในพื้นที่ที่มีความละเอียดอ่อนเช่น URL
/admin/
ภายใน
ถึงแม้ว่ามันจะเป็นการต่อสู้บนเนินเขาเว้นแต่คุณจะใช้เทคนิคหมวกดำเช่นการปลอมแปลง UA หรือปิดบังรูปแบบการรวบรวมข้อมูลของคุณ: เจ้าของไซต์จำนวนมากด้วยเหตุผลเดียวกันข้างต้นจะบล็อกโปรแกรมรวบรวมข้อมูลที่ไม่รู้จักแทน โอกาสที่มีคนไม่พยายาม "แฮ็คไซต์ของพวกเขา" เตรียมความพร้อมสำหรับความล้มเหลวมากมาย
สิ่งหนึ่งที่คุณสามารถทำได้เพื่อต่อสู้กับภาพลบนั้นโปรแกรมรวบรวมข้อมูลที่ไม่รู้จักจะต้องทำให้ชัดเจนในสตริงตัวแทนผู้ใช้ของคุณว่าคุณคือใคร:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
ไหนhttp://example.com/aarobot.html
จะอธิบายสิ่งที่คุณกำลังพยายามที่จะบรรลุและทำไมคุณไม่ได้เป็นภัยคุกคาม หน้านั้นควรมีบางสิ่ง:
- ข้อมูลเกี่ยวกับวิธีการติดต่อคุณโดยตรง
- ข้อมูลเกี่ยวกับสิ่งที่รวบรวมรวบรวมและทำไมมันรวบรวม
- ข้อมูลเกี่ยวกับวิธีการยกเลิกและมีการรวบรวมข้อมูลใด ๆ
สิ่งสุดท้ายคือกุญแจสำคัญ: การเลือกไม่รับที่ดีเป็นเหมือน Money Back Guarantee ™และให้คะแนนค่าความนิยมที่ไม่สมเหตุสมผล ควรมีมนุษยธรรม: ขั้นตอนง่าย ๆ เดียว (ทั้งที่อยู่อีเมลหรือแบบฟอร์ม) และครอบคลุม (ไม่มี "gotchas": การเลือกไม่ใช้หมายความว่าคุณจะหยุดรวบรวมข้อมูลโดยไม่มีข้อยกเว้น)