ฉันควรตั้งค่าตัวแทนผู้ใช้ใด


18

มี Ask bot ซึ่งตั้งหัวข้อนี้:

Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 

เมื่อพิจารณาถึงสิ่งนี้ฉันมีคำถามต่อไปนี้:

  • หากฉันกำลังเขียนโปรแกรมรวบรวมข้อมูลเว็บชื่อ Goofy ฉันควรใช้ตัวแทนผู้ใช้ใด
  • ถ้าฉันใส่Mozilla/2.0หรือแตกต่างMozilla/5.0คืออะไร?

คำแนะนำอื่น ๆ เกี่ยวกับวิธีการจัดรูปแบบตัวแทนผู้ใช้ของฉันเพื่อให้เป็นไปตามมาตรฐานในปัจจุบันเป็นมากกว่าการต้อนรับ

คำตอบ:


32

ฉันเป็นผู้ออกแบบหลักและเป็นผู้เขียนโปรแกรมรวบรวมข้อมูลเว็บขนาดใหญ่พอสมควร (ดูmetadatalabs.com/mlbot (ลิงก์ที่เก็บถาวร) ) สิ่งที่คุณขอสัมผัสในหัวข้อที่มีความสำคัญต่อเรา - อาจเป็นส่วนที่สำคัญที่สุดในการใช้โปรแกรมรวบรวมข้อมูล: ความสุภาพ

ข้อแรก: สาเหตุของสิ่งที่ "Mozilla" คือการบอกไซต์ว่าความสามารถของเบราว์เซอร์ของคุณคืออะไร หากบอทของคุณไม่ได้พยายามที่จะทำตัวเหมือนเบราว์เซอร์ไม่มีเหตุผลใดที่คุณจะต้องรวมสิ่งที่ "Mozilla"

สำหรับสตริงตัวแทนผู้ใช้ของคุณและรายการอื่น ๆ ที่เกี่ยวข้องกับความสุภาพ:

  1. เลือกชื่อที่คุณรู้ว่าไม่มีใครใช้ ฉันสงสัยว่าถ้าคุณใช้ "Goofybot" คุณก็สบายดี แต่ฉันจะตรวจสอบเพื่อให้แน่ใจ

  2. สตริงตัวแทนผู้ใช้ของคุณควรมีลิงค์ไปยังข้อมูลเพิ่มเติมเกี่ยวกับบอท ตัวอย่างเช่นสตริงของเราอ่าน "MLBot (www.metadatalabs.com/mlbot)"

  3. ตรวจสอบให้แน่ใจว่าถ้ามีคนค้นหา "Goofybot" หน้านั้นสูง (ดีกว่าเป็นอันดับแรก) ในผลการค้นหา

  4. หน้าเว็บของคุณเกี่ยวกับบ็อตควรบอกสิ่งที่คุณกำลังใช้ข้อมูลสำหรับที่อยู่ IP ใดที่คุณรวบรวมข้อมูลและรวมถึงวิธีการที่ผู้คนจะติดต่อคุณเกี่ยวกับปัญหาของบอท

  5. คุณควรตอบคำถามหรือข้อร้องเรียนใด ๆ อย่างรวดเร็วโดยใช้ปรัชญา "ลูกค้าถูกเสมอ" โปรดจำไว้ว่าถ้าบอทของคุณก่อให้เกิดปัญหาว่าบุคคลนี้กำลังบ่นก็อาจทำให้เกิดปัญหากับไซต์อื่น ๆ อีกโหลที่ไม่มีใครบ่น พวกเขาอาจไม่เห็นปัญหาหรือวางบล็อกบนที่อยู่ IP ของคุณ

  6. คุณควรสร้างสิ่งอำนวยความสะดวกเพื่อป้องกันบอทของคุณจากการเข้าถึงชื่อโดเมนเฉพาะ บางคนไม่ต้องการให้คุณรวบรวมข้อมูลเลยและไม่มีสิทธิ์เข้าถึงหรือความสามารถด้านเทคนิคในการสร้าง robots.txt หรือบล็อกใน. htaccess เราพบว่าความสามารถนี้ช่วยให้เราบอกใครสักคนว่า "ขออภัย MLBot ทำให้เกิดปัญหาเราได้รับคำสั่งให้ไม่รวบรวมข้อมูลเว็บไซต์ของคุณอีกครั้ง" อาจไม่แปลกใจที่คนสงบลงอย่างรวดเร็ว

  7. หากคุณยังไม่เคารพ robots.txt ให้ทำ ไม่มีอะไรที่จะทำให้คุณเสียชื่อเสียงเร็วกว่าละเว้น robots.txt

ว้าว. มันใช้เวลานานกว่าที่ฉันคาดไว้ ในสี่ปีที่ผ่านมาฉันได้ทำทุกข้อผิดพลาดเหล่านั้นที่ฉันพูดถึงข้างต้นและอื่น ๆ นอกเหนือจาก อย่างไรก็ตามเราพบว่าหากเราเปิดเผยเกี่ยวกับสิ่งที่เรากำลังทำและสื่อสารอย่างตรงไปตรงมา (รวมถึงการโพสต์ข้อมูลเกี่ยวกับข้อผิดพลาดก่อนที่เราจะได้รับการร้องเรียน) เว็บมาสเตอร์ส่วนใหญ่มองว่าเราเป็นพลเมืองอินเทอร์เน็ตที่ดี


ลิงค์ตัวอย่างข้างต้น ( metadatalabs.com/mlbot ) เพิ่งแสดง ("กำลังก่อสร้าง") ....
starbeamrainbowlabs

2
@ starbeamrainbowlabs คำตอบนั้นเขียนขึ้นในปี 2010 Metadata Labs ปิดตัวลงในปี 2012
Jim Mischel

มีทางเลือกอีกไหม?
starbeamrainbowlabs

@ starbeamrainbowlabs ทางเลือกเพื่ออะไร
Jim Mischel

สิ่งที่เชื่อมโยงไปยังในหน้าห้องปฏิบัติการ Metadata นั้นปรากฏขึ้น ในขณะที่ฉันมองไม่เห็นฉันไม่สามารถแนะนำทางเลือกอื่นได้: P
starbeamrainbowlabs

8

Mozilla / 2.0 และ Mozilla / 5.0 เป็นการอ้างอิงถึงเบราว์เซอร์ Mozilla มันไม่มีความหมายส่วนใหญ่โดยที่โปรแกรมรวบรวมข้อมูลจำนวนมากใช้งานอยู่ แต่ควรบอกไซต์ให้ปฏิบัติกับโปรแกรมรวบรวมข้อมูลของคุณราวกับว่ามันจะเป็นการสุ่มตรวจสอบผู้ใช้ด้วยเบราว์เซอร์ปกติ

อย่างไรก็ตามเป็นมารยาทที่ดีในการรวม URL ที่เชื่อมโยงไปยังหน้าเว็บเกี่ยวกับว่าคุณเป็นใครและสาเหตุที่คุณรวบรวมข้อมูลในส่วนต่อไปนี้ ถาม Jeeves ได้ด้วยชื่อ แต่คุณควรใส่ URL

เช่น

Mozilla/5.0 (compatible; http://example.org/)

วิธีนี้จะช่วยให้ผู้ดูแลระบบเว็บสามารถระบุสาเหตุที่คุณรวบรวมข้อมูลเว็บไซต์ของพวกเขาและติดต่อคุณหากมีปัญหาเกี่ยวกับการทำงานของโปรแกรมรวบรวมข้อมูลของคุณ


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.