บอทใดที่ควรค่าแก่การเข้าสู่เว็บไซต์


11

ต้องเขียนบอทจำนวนหนึ่งและได้เห็นบอทสุ่มจำนวนมากที่เกิดขึ้นกับการรวบรวมข้อมูลในเว็บไซต์ฉันสงสัยว่าในฐานะผู้ดูแลเว็บ

ความคิดแรกของฉันคือการอนุญาตให้บอทเข้ามาในเว็บไซต์สามารถนำปริมาณการใช้งานจริงมาใช้ได้ มีเหตุผลใดบ้างที่อนุญาตให้บอทที่ไม่ทราบว่ากำลังส่งปริมาณการใช้งานจริงไปยังไซต์


1
+1: คำถามที่ดี; อย่างไรก็ตามมันยากที่จะตอบคำถามของคุณเพราะมีบอทมากมาย
Zistoloen

@Zistoloen: ใช่ฉันรู้ว่ามันเป็นคำถามที่ยาก ในความเป็นจริงเหตุผลที่ฉันถามคือเพราะเครื่องมือค้นหาที่ไม่สำคัญที่ฉันรู้ว่ามีการทำดัชนีหน้าเว็บหลายพันล้านรายการบ่นเกี่ยวกับวิธีที่พวกเขาไม่สามารถเข้าถึงเว็บจำนวนมากได้เนื่องจากเว็บไซต์พยายามบล็อกเครื่องมือค้นหาที่ไม่สำคัญ
ความผิดพลาด

1
ที่เกี่ยวข้อง: en.wikipedia.org/wiki/Spider_trap
Mooing Duck

@blunders ขอบคุณที่สละเวลา ฉันจะแก้ไขมันด้วยตัวเองถ้าฉันสามารถแยกวิเคราะห์คำถามได้ :)
DisgruntledGoat

@DisgruntledGoat: ไม่มีปัญหาขอบคุณสำหรับการแก้ไข!
ความผิดพลาด

คำตอบ:


11

ภายในขอบเขตของบอทปกติทุกอย่างขึ้นอยู่กับสิ่งที่คุณชื่นชมและมีเพียงคุณเท่านั้นที่สามารถตัดสินใจได้ แน่นอนว่ามี Google, Bing / MSN / Yahoo !, Baidu และ Yandex เหล่านี้คือเครื่องมือค้นหาที่สำคัญ นอกจากนี้ยังมีเว็บไซต์ SEO และลิงก์ย้อนกลับต่าง ๆ ถูกหรือผิดฉันอนุญาตให้สองสามคนที่มีสิทธิ์เข้าถึงไซต์ของฉัน แต่โดยทั่วไปแล้วพวกเขาเป็นไซต์ที่ไร้ประโยชน์ ฉันบล็อก archive.org ไม่เพียง แต่ใน robots.txt แต่ตามชื่อโดเมนและที่อยู่ IP นี่เป็นเพราะพวกเขาไม่สนใจ robots.txt ครั้งใหญ่! นี่คือสิ่งที่คุณต้องทำให้เกิดความรู้สึก อย่าหลงกลโดยชื่อตัวแทน บ่อยครั้งพวกเขาถูกปลอมแปลงโดยคนเลว วันนี้ฉันได้รับคำขอหน้านับพันจากแหล่งที่อ้างว่าเป็น Baidu แต่ไม่ใช่ ทำความรู้จักกับสไปเดอร์เหล่านี้ด้วยชื่อโดเมนและที่อยู่ IP และเรียนรู้ที่จะจัดการกับพวกมันในระดับนั้น คนดีเชื่อฟัง robots.txt

แต่ฉันต้องเตือนคุณว่ามีตันของบ็อตล่องหน, บ็อบอันธพาล, แครปเปอร์, และอื่น ๆ ที่คุณจะต้องการค้นหาการวิเคราะห์บันทึกของคุณบ่อยครั้งและบล็อก 5uck5 นี้! แต่จะต้องมีการทำ ภัยคุกคามที่ใหญ่ที่สุดในวันนี้คือลิงก์คุณภาพต่ำสู่เว็บไซต์ของคุณ รหัสความปลอดภัยต่อต้านบอทที่อัปเดตของฉันที่ฉันใช้ในปีนี้ได้ลดลง 7700 ลิงก์คุณภาพต่ำโดยอัตโนมัติ แน่นอนว่ารหัสของฉันยังคงต้องใช้งานอยู่ แต่คุณก็เข้าใจได้ บอทที่ไม่ดียังคงขโมยเว็บไซต์ที่มีศักยภาพ

มันจะไม่นานก่อนที่คุณจะได้รับมัน


1

ฉันมีปัญหากับบ็อต Baidu ทำให้เซิร์ฟเวอร์ของฉันช้าลงขณะที่เสิร์ชเอ็นจินกำลังส่งข้อมูลแทบไม่มีปริมาณข้อมูล บอทเหล่านี้ไม่เคารพไฟล์ robots.txt ดังนั้นเพื่อป้องกันบ็อต Baidu เพียงแค่วางสิ่งต่อไปนี้ลงในไฟล์ htccess ของคุณ

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

ฉันเคยมีปัญหากับสไปเดอร์ Bing / Microsoft ที่เร็วเกินไปซึ่งแตกต่างจาก Baidu ที่พวกเขาเคารพไฟล์ robots.txt ดังนั้น;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.