ฉันเป็นผู้ออกแบบหลักและเป็นผู้เขียนโปรแกรมรวบรวมข้อมูลเว็บขนาดใหญ่พอสมควร (ดูmetadatalabs.com/mlbot (ลิงก์ที่เก็บถาวร) ) สิ่งที่คุณขอสัมผัสในหัวข้อที่มีความสำคัญต่อเรา - อาจเป็นส่วนที่สำคัญที่สุดในการใช้โปรแกรมรวบรวมข้อมูล: ความสุภาพ
ข้อแรก: สาเหตุของสิ่งที่ "Mozilla" คือการบอกไซต์ว่าความสามารถของเบราว์เซอร์ของคุณคืออะไร หากบอทของคุณไม่ได้พยายามที่จะทำตัวเหมือนเบราว์เซอร์ไม่มีเหตุผลใดที่คุณจะต้องรวมสิ่งที่ "Mozilla"
สำหรับสตริงตัวแทนผู้ใช้ของคุณและรายการอื่น ๆ ที่เกี่ยวข้องกับความสุภาพ:
เลือกชื่อที่คุณรู้ว่าไม่มีใครใช้ ฉันสงสัยว่าถ้าคุณใช้ "Goofybot" คุณก็สบายดี แต่ฉันจะตรวจสอบเพื่อให้แน่ใจ
สตริงตัวแทนผู้ใช้ของคุณควรมีลิงค์ไปยังข้อมูลเพิ่มเติมเกี่ยวกับบอท ตัวอย่างเช่นสตริงของเราอ่าน "MLBot (www.metadatalabs.com/mlbot)"
ตรวจสอบให้แน่ใจว่าถ้ามีคนค้นหา "Goofybot" หน้านั้นสูง (ดีกว่าเป็นอันดับแรก) ในผลการค้นหา
หน้าเว็บของคุณเกี่ยวกับบ็อตควรบอกสิ่งที่คุณกำลังใช้ข้อมูลสำหรับที่อยู่ IP ใดที่คุณรวบรวมข้อมูลและรวมถึงวิธีการที่ผู้คนจะติดต่อคุณเกี่ยวกับปัญหาของบอท
คุณควรตอบคำถามหรือข้อร้องเรียนใด ๆ อย่างรวดเร็วโดยใช้ปรัชญา "ลูกค้าถูกเสมอ" โปรดจำไว้ว่าถ้าบอทของคุณก่อให้เกิดปัญหาว่าบุคคลนี้กำลังบ่นก็อาจทำให้เกิดปัญหากับไซต์อื่น ๆ อีกโหลที่ไม่มีใครบ่น พวกเขาอาจไม่เห็นปัญหาหรือวางบล็อกบนที่อยู่ IP ของคุณ
คุณควรสร้างสิ่งอำนวยความสะดวกเพื่อป้องกันบอทของคุณจากการเข้าถึงชื่อโดเมนเฉพาะ บางคนไม่ต้องการให้คุณรวบรวมข้อมูลเลยและไม่มีสิทธิ์เข้าถึงหรือความสามารถด้านเทคนิคในการสร้าง robots.txt หรือบล็อกใน. htaccess เราพบว่าความสามารถนี้ช่วยให้เราบอกใครสักคนว่า "ขออภัย MLBot ทำให้เกิดปัญหาเราได้รับคำสั่งให้ไม่รวบรวมข้อมูลเว็บไซต์ของคุณอีกครั้ง" อาจไม่แปลกใจที่คนสงบลงอย่างรวดเร็ว
หากคุณยังไม่เคารพ robots.txt ให้ทำ ไม่มีอะไรที่จะทำให้คุณเสียชื่อเสียงเร็วกว่าละเว้น robots.txt
ว้าว. มันใช้เวลานานกว่าที่ฉันคาดไว้ ในสี่ปีที่ผ่านมาฉันได้ทำทุกข้อผิดพลาดเหล่านั้นที่ฉันพูดถึงข้างต้นและอื่น ๆ นอกเหนือจาก อย่างไรก็ตามเราพบว่าหากเราเปิดเผยเกี่ยวกับสิ่งที่เรากำลังทำและสื่อสารอย่างตรงไปตรงมา (รวมถึงการโพสต์ข้อมูลเกี่ยวกับข้อผิดพลาดก่อนที่เราจะได้รับการร้องเรียน) เว็บมาสเตอร์ส่วนใหญ่มองว่าเราเป็นพลเมืองอินเทอร์เน็ตที่ดี