จากการวิจัยของฉันในเรื่องฉันพบว่าไม่มีวิธีการรับประกัน 100% ในการป้องกันการสร้างดัชนีและแคชข้อมูล แต่คุณสามารถเข้ามาใกล้มาก (สมมติว่าคุณต้องการจัดการกับปริมาณการรับส่งข้อมูลที่เพิ่มขึ้น) นี่คือวิธีที่ฉันตีความข้อมูล
อาจคิดว่าไฟล์ robots.txt ใช้เพื่อกำหนดข้อมูลทั่วทั้งเว็บไซต์และแท็กของหุ่นยนต์ที่ใช้สำหรับรายละเอียดเฉพาะของหน้า ฉันคิดว่าวิญญาณที่อยู่เบื้องหลังทั้ง 2 นั้นเป็นแบบนี้ แต่นี่ไม่ใช่ในทางปฏิบัติ
อย่าสร้างไฟล์robots.txt
สิ่งนี้ทำงานร่วมกับผู้ให้บริการการค้นหารายใหญ่ทั้งหมดเพื่อป้องกันไม่ให้เนื้อหาปรากฏบน SERP แต่ไม่ ได้ ป้องกันการสร้างดัชนี การทำเช่นนี้จะช่วยป้องกันบ็อตไม่ให้รวบรวมข้อมูลหน้าเว็บของคุณดังนั้นเมตาแท็กของหุ่นยนต์ (ดูด้านล่าง) ก็จะถูกละเว้นเช่นกัน ด้วยเหตุนี้คุณจึงไม่สามารถใช้ 2 ร่วมกันได้และนี่คือสาเหตุหากคุณต้องการป้องกันการสร้างดัชนีคุณไม่ควรใช้ไฟล์ robots.txt
หมายเหตุด้านข้าง: Google สนับสนุนการใช้งานNoindex: /
ใน robots.txt แต่ไม่มีการบันทึกไว้ (ใครจะรู้ว่าจะพังเมื่อไร) และไม่ทราบว่าสิ่งนี้ใช้ได้กับคนอื่นหรือไม่
ใช้ส่วนหัว HTTP หรือแท็ก HTML META เพื่อป้องกันทุกอย่าง
แท็ก robots (และส่วนหัว HTTP) ต่างจากไฟล์ robots.txt ซึ่งได้รับการสนับสนุนอย่างกว้างขวางและน่าประหลาดใจคือฟีเจอร์ที่หลากหลาย มันถูกออกแบบมาเพื่อตั้งค่าในแต่ละหน้า แต่การยอมรับX-Robots-Tag
ส่วนหัวเมื่อเร็ว ๆ นี้ทำให้ง่ายต่อการตั้งค่าทั่วทั้งไซต์ ข้อเสียเพียงอย่างเดียวของวิธีนี้คือบอตจะรวบรวมข้อมูลเว็บไซต์ของคุณ นี้สามารถถูก จำกัด โดยใช้แต่ไม่ได้บอททุกอย่างแท้จริงเคารพnofollow
nofollow
ผมพบตันของข้อมูลในนี้ล้าสมัยบล็อกโพสต์ มันออกวางตลาดครั้งแรกเมื่อปี 2550 แต่เนื่องจากข้อมูลจำนวนมากเกี่ยวกับมันเป็นคุณสมบัติที่ใหม่กว่าตั้งแต่นั้นมาดูเหมือนว่าจะได้รับการอัปเดตเป็นประจำ
สรุปคุณควรส่ง HTTP X-Robots-Tag: noindex,nofollow,noodp,noydir
ส่วนหัวของ นี่คือเหตุผลที่ทำไม:
nofollow
ควร จำกัด จำนวนหน้าที่รวบรวมข้อมูลในเว็บไซต์ของคุณทำให้ปริมาณการใช้บอทลดลง * noindex
บอกเอนจิ้นเพื่อไม่สร้างดัชนีหน้า
- ทีนี้คุณอาจคิดว่านั่น
noindex
อาจเพียงพอแล้ว อย่างไรก็ตามเราพบว่าแม้ว่าคุณจะบอกว่าnoindex
เว็บไซต์ของคุณอาจถูกจัดทำดัชนีเนื่องจากเว็บไซต์อื่น ๆ ที่เชื่อมโยงไปถึง วิธีที่ดีที่สุดในการป้องกันการเชื่อมโยงเว็บไซต์ทั่วไปจาก Y! Directory ( noydir
) และ Open Directory ( noodp
)
- การใช้ส่วนหัว HTTP ยังใช้ข้อมูลหุ่นยนต์กับไฟล์รูปภาพและไฟล์อื่น ๆ ที่ไม่ใช่ HTML! เย้!
จะใช้งานได้ใน 99% ของกรณี โปรดทราบว่าอาจเป็นไปได้ที่จะจัดทำดัชนีในบางกรณีโดยผู้ให้บริการบางราย Google อ้างว่าให้ความเคารพอย่างเต็มที่noindex
แต่ฉันมีข้อสงสัย
ในที่สุดหากคุณได้รับการจัดทำดัชนีหรือได้รับการจัดทำดัชนีแล้ววิธีเดียวที่จะได้รับการจัดทำดัชนีข้อมูลของคุณคือการทำตามวิธีการต่าง ๆ จากผู้ให้บริการแต่ละรายเพื่อขอลบเว็บไซต์ / URL เห็นได้ชัดว่านี่หมายความว่าคุณอาจต้องการตรวจสอบเว็บไซต์ / หน้าเว็บโดยใช้บางสิ่งเช่นGoogle Alerts (ขอบคุณ @Joe)