เป็นไปได้หรือไม่ที่จะชะลอความถี่การรวบรวมข้อมูล Baiduspider


18

ส่วนมากนั้นทำมาจากความถี่ในการรวบรวมข้อมูลของแมงมุมไป่ตู้ มันเป็นความจริง: "Baiduspider คลานอย่างบ้าคลั่ง"

ฉันเคยพบปรากฏการณ์นี้ที่ไซต์ที่ฉันทำงานด้วย อย่างน้อยหนึ่งครั้งฉันพบว่า Baiduspider คลานที่ความถี่เดียวกันกับ Googlebot แม้ว่าข้อเท็จจริงที่ว่า Baidu จะให้การรับส่งข้อมูลมากเท่ากับ. 1% ของ Google

ฉันต้องการให้การเข้าชมเหล่านั้นบนเว็บไซต์ของฉันมีน้อยเท่าที่พวกเขาจะ (อาจจะวันหนึ่งพวกเขาจะเติบโต?) แต่ฉันไม่สามารถพิสูจน์ให้อนุญาตให้โหลดจำนวนมากบนเซิร์ฟเวอร์ของฉัน

คำตอบที่ได้รับการยอมรับสำหรับคำถามที่ลิงก์ข้างต้นชี้ให้เห็นว่าBaidu Webmaster Toolsเสนอโอกาสในการ จำกัด อัตราการรวบรวมข้อมูล แต่ฉันลังเลที่จะเปิดเผยว่าเวิร์มกระป๋อง (ภาษาจีนเท่านั้น)

ใครบ้างมีประสบการณ์ จำกัด อัตราการรวบรวมข้อมูล Baiduspider กับ BWT หรือไม่? มีวิธีอื่นที่จะ จำกัด การโหลดนี้หรือไม่

คำตอบ:


11

เป็นคำถามที่ยอดเยี่ยมและหนึ่งในเว็บมาสเตอร์หลายคนอาจสนใจตั้งแต่แมงมุมไปเดอร์นั้นมีพฤติกรรมก้าวร้าวและสามารถแย่งทรัพยากรจากเซิร์ฟเวอร์ ...

ดังที่ระบุไว้ในข่าวการค้นหาเว็บของไป่ตู้ Baidu spider ไม่สนับสนุนการตั้งค่าการแจ้งเตือนการรวบรวมข้อมูลล่าช้าและคุณต้องลงทะเบียนและยืนยันเว็บไซต์ของคุณด้วยแพลตฟอร์มเครื่องมือเว็บมาสเตอร์ของ Baidu ตามที่ระบุไว้ที่นี่ในเว็บไซต์ นี่เป็นตัวเลือกเดียวในการควบคุมความถี่ในการรวบรวมข้อมูลโดยตรงกับ Baidu

ปัญหาคือบอทสแปมอื่นใช้ตัวแทนผู้ใช้ของ Baidu (อยู่ที่นี่ภายใต้หมายเลข 2) เพื่อไปยังไซต์ของคุณตามที่ระบุไว้ในคำถามที่พบบ่อยของพวกเขาที่นี่ภายใต้ข้อ 4 ดังนั้นการขออัตราการรวบรวมข้อมูลช้าลงด้วย

ดังนั้นหากคุณตัดสินใจใช้เครื่องมือผู้ดูแลเว็บของ Baidu คุณควรเปรียบเทียบตัวแทนผู้ใช้กับ IP ที่ทราบว่าเกี่ยวข้องกับพวกเขาด้วยการใช้ทรัพยากรเช่นฐานข้อมูล Bots vs Browsersหรือใช้การค้นหา DNS ย้อนกลับ

ตัวเลือกอื่น ๆ เท่านั้นที่จะบล็อกตัวแทนผู้ใช้ของ Baidu ทั้งหมดและทำให้ลดทอนการรับส่งข้อมูลที่อาจเกิดขึ้นจาก Baidu หรือพยายาม จำกัด คำขอที่มากเกินไปโดยใช้บางอย่างเช่นmod_qosสำหรับ Apache ซึ่งอ้างว่าจัดการ:

  • จำนวนสูงสุดของคำร้องขอพร้อมกันไปยังตำแหน่ง / ทรัพยากร (URL) หรือโฮสต์เสมือน
  • ข้อ จำกัด ของแบนด์วิดท์เช่นจำนวนคำขอสูงสุดที่อนุญาตต่อวินาทีไปยัง URL หรือสูงสุด / ต่ำสุดของการดาวน์โหลด kbytes ต่อวินาที
  • จำกัด จำนวนกิจกรรมการร้องขอต่อวินาที (เงื่อนไขคำขอพิเศษ)
  • นอกจากนี้ยังสามารถ "ตรวจจับ" บุคคลที่สำคัญมาก (VIP) ซึ่งสามารถเข้าถึงเว็บเซิร์ฟเวอร์โดยไม่มีข้อ จำกัด น้อยลง
  • บรรทัดคำขอทั่วไปและตัวกรองส่วนหัวเพื่อปฏิเสธการดำเนินการที่ไม่ได้รับอนุญาต ร้องขอการ จำกัด ข้อมูลและการกรองเนื้อหา (ต้องการ mod_parp)
  • ข้อ จำกัด เกี่ยวกับระดับการเชื่อมต่อ TCP เช่นจำนวนการเชื่อมต่อที่อนุญาตสูงสุดจากที่อยู่ IP เดียวหรือการควบคุมแบบไดนามิก
  • ต้องการที่อยู่ IP ที่รู้จักเมื่อเซิร์ฟเวอร์ไม่มีการเชื่อมต่อ TCP ฟรี

ฉันไม่พบรายงานเกี่ยวกับ Baidu Webmaster Tools ที่โหลดช้าและมีปัญหาการแปล (ไม่มีเวอร์ชันภาษาอังกฤษ) นั่นอาจเป็นประโยชน์ แต่แน่นอนว่าเป็นไปตามความคิดเห็น


1
สิ่งนี้มีประโยชน์จริงๆ @Dan ลองใช้โซลูชันเหล่านี้สองสามอย่าง (Baidu Webmaster Tools เป็นความเจ็บปวดที่แท้จริง) จะรายงานกลับ
samthebrand

1
ขอบคุณ! เยี่ยมมาก - ฉันจะอัปเดตสิ่งนี้หากฉันพบตัวเลือกอื่น ๆ ด้วย คำถามนี้สะท้อนให้เห็นถึงความผิดหวังมากมายของเว็บมาสเตอร์ที่มีบอตก้าวร้าวและความกังวลเกี่ยวกับการโต้ตอบกับพวกเขา (เช่น Baidu Webmaster Tools) หวังว่าบอทที่ถูกกฎหมายจะนำสิ่งนี้มาพิจารณาและจะมีเครื่องมือ / ตัวเลือกที่ดีกว่า
แดน

@ samthebrand and dan - ได้โปรดรายงานกลับมา! คุณพบวิธีแก้ไขปัญหาอื่น ๆ ที่คุณสามารถแนะนำได้หรือไม่?
lazysounds

5

หลังจากการวิจัยและทดลองกับสิ่งนี้มากมายในที่สุดฉันก็ได้กระสุนและตั้งค่าบัญชี Baidu Webmaster Tools มันค่อนข้างตรงไปตรงมาที่จะใช้เมื่อติดตั้ง Google Translate ในอีกหน้าต่างหนึ่ง คุณอาจต้องเปิดใช้งาน firebug เพื่อให้สามารถคัดลอกและวางข้อความภาษาจีนจากปุ่มที่คุณไม่สามารถจับภาพจากโหมดเบราว์เซอร์ปกติ

หลังจากที่คุณตั้งค่าคุณต้องรอสองสามวันก่อนที่ข้อมูลการรวบรวมข้อมูลจะปรากฏขึ้นจากนั้นคุณสามารถกำหนดอัตราการรวบรวมข้อมูลเองได้ มันปรากฏในส่วนที่เรียกว่า "ความดัน" ซึ่งคุณควรจะได้รับด้วย URL นี้:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
โปรดทราบว่าคุณจะสามารถใช้ URL นี้ได้หากคุณมีการตั้งค่าบัญชี Baidu Webmaster Tools และคุณได้เชื่อมโยง URL เว็บไซต์ของคุณกับบัญชีของคุณสำหรับเว็บไซต์ที่เป็นปัญหา) ที่นี่คุณจะเห็นแถบเลื่อนที่มีอัตราการรวบรวมข้อมูลปัจจุบันของคุณในศูนย์ (ในกรณีของฉัน 12676 คำขอต่อวันเลื่อนไปทางซ้ายเพื่อลดอัตราการรวบรวมข้อมูล

ฉันยังไม่มีความคิดหากจริง ๆ แล้วมันเคารพคำขอของคุณ มันให้คำเตือนซึ่งบอกว่าสิ่งนี้ "เราขอแนะนำให้คุณใช้อัตราการรวบรวมข้อมูลเริ่มต้นของเว็บไซต์ Baidu เฉพาะเมื่อเว็บไซต์ของคุณมีปัญหากับการรวบรวมข้อมูลของเราจากนั้นใช้เครื่องมือนี้ในการปรับเปลี่ยนเพื่อรักษาอัตราการรวบรวมข้อมูลเว็บไซต์ของคุณตามปกติ Baidu จะทำการปรับอัตราการรวบรวมข้อมูล เงื่อนไขเว็บไซต์และดังนั้นจึงไม่สามารถรับประกันได้ว่าจะปรับตามคำขอของคุณ "


1
ฉันแน่ใจว่าฉันไม่ใช่คนเดียวที่ชื่นชมการอัปเดตเกี่ยวกับสิ่งนี้ - มันเคารพคำขอหรือไม่ คุณจะแนะนำให้สร้างบัญชีหรือไม่
lazysounds

เพิ่งอัปเดต URL โดยตรงไปยังหน้าการปรับความถี่การรวบรวมข้อมูลเนื่องจากถูกฝังอยู่ในเครื่องมือของผู้ดูแลเว็บอย่างลึกซึ้งยิ่งขึ้นในตอนนี้ (ไม่ใช่ในเมนูอีกต่อไป) Google แปลทำให้หายากมากเนื่องจากการแปลที่สับสน ;-)
odony

-1

ใช่คุณสามารถใช้Crawl-delayพารามิเตอร์ในrobots.txtเพื่อกำหนดจำนวนวินาทีเพื่อรอระหว่างคำขอต่อเนื่องไปยังเซิร์ฟเวอร์เดียวกัน

User-agent: Baiduspider
Crawl-delay: 100

บรรทัดแรกคือบอกเฉพาะโปรแกรมรวบรวมข้อมูลเว็บ Baidu เพื่อเป็นเกียรติแก่คำสั่ง บรรทัดที่ 2 คือเวลารอเป็นวินาทีระหว่างการร้องขอไปยังเซิร์ฟเวอร์ คุณสามารถเพิ่มเวลาที่คุณต้องการได้

คุณจะต้องเพิ่มคำสั่งเหล่านี้ไปยังไฟล์robots.txt ที่มีอยู่ของคุณ หากคุณยังไม่มีไฟล์robots.txtให้เพิ่มรหัสด้านบนลงในไฟล์ข้อความบันทึกไฟล์เป็นrobots.txtและอัปโหลดไปที่โฟลเดอร์รากของเว็บไซต์ของคุณดังนั้นจึงปรากฏที่ที่อยู่ด้านล่าง:

www.examplesite.com/robots.txt

2
Baiduspider ไม่สนับสนุนการรวบรวมข้อมูลล่าช้า ดูที่นี่
samthebrand

อ๊ะได้เห็นมันในไฟล์ robots.txt ของเว็บไซต์ไม่กี่ไฟล์ คำพูดนั้นไปได้อย่างไร!
Max
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.