หุ่นยนต์ที่ถูกปฏิเสธโดยโดเมนยังคงอยู่ในรายการผลการค้นหา


9

ดังนั้นในเว็บไซต์ทั้งหมดของเราที่ไม่ได้ค้นหาเราได้ใช้ไฟล์ robots.txt (ต่อวิธีการยกเว้นเว็บไซต์จากผลการค้นหาของ Google แบบเรียลไทม์หรือคำถามอื่น ๆ ที่คล้ายกัน)

อย่างไรก็ตามหากคำค้นหามีความเจาะจงมากพอตัวโดเมนเองก็สามารถค้นพบได้ผ่านผลลัพธ์ ตัวอย่างนี้สามารถพบได้ที่นี่ ตามที่คุณเห็นจากลิงก์สามารถพบโดเมนได้เอง (เนื้อหาไม่ถูกแคช แต่มีการระบุโดเมนไว้) นอกจากนี้การค้นหาด้วยsite:hyundaidigitalmarketing.comผลลัพธ์ 3 รายการควร การตรวจสอบลิงก์ย้อนกลับก็มีบางอย่างเช่นกัน แต่ฉันไม่สามารถป้องกันได้ (อนุญาตให้เชื่อมโยงในบริบท) หรือควบคุมวิธีจัดการสิ่งเหล่านี้ (ไม่สามารถบอกโฮสต์ให้เพิ่ม nofollow, noindex)

ตอนนี้ฉันรู้ว่านี่เป็นกรณีที่รุนแรงอย่างไรก็ตามลูกค้า บริษัท ของฉันกำลังทำสิ่งนี้อยู่ ในความเป็นจริงโดเมนของเราค่อนข้างดีดังนั้นแม้การค้นหาโดยพลการดูเหมือนจะเปิดผลลัพธ์ที่เกี่ยวข้อง ตอนนี้ฉันต้องเขียนรายงานว่าเกิดอะไรขึ้น

ดังนั้นฉันจึงหันไปใช้เครือข่าย Stack Exchange ที่ยอดเยี่ยมเพื่อช่วยให้ฉันเข้าใจสิ่งที่ขาดหายไปหรือเข้าใจสิ่งที่เกิดขึ้น ลิงก์ไปยังบทความในอุตสาหกรรมมีประโยชน์อย่างยิ่ง แต่สิ่งที่คุณให้ได้นั้นยอดเยี่ยมมาก ฉันตั้งใจจะเสนอสิ่งที่ดีที่สุดที่ฉันสามารถทำได้เพื่อให้เป็นคำตอบที่จะหันไปหาในอนาคต

แก้ไข:ฉันเปิดรับคำถามนี้ด้วยความหวังว่าจะได้รับคำตอบเพิ่ม ฉันได้ให้ผลลัพธ์ของการวิจัยของฉันด้านล่างด้วย

คำตอบ:


5

ฉันจะต้องค้นหาแหล่งที่มาของข้อมูลนี้ แต่ดูเหมือนว่า robots.txt จะไม่จำเป็นต้องป้องกันไม่ให้มีการจัดทำดัชนีหน้าเว็บ แต่ส่วนหัวของ HTTP x-robots-tag ทำงานได้อย่างชัดเจน

หากคุณใช้ Apache คุณสามารถบล็อกหน้าเป็นกลุ่มโดยใช้บรรทัดนี้ในไฟล์. htaccess:

Header set x-robots-tag: noindex

ลองดูสิว่าเกิดอะไรขึ้น

แก้ไข

(พบแหล่งที่มาไม่ใช่ที่ฉันจำได้ แต่ใช้งานได้)


สวัสดีและขอขอบคุณสำหรับคำตอบ สิ่งนี้แตกต่างจากเมตาแท็กของโรบอตที่ติดตั้งแล้วในเอาต์พุต html ของไซต์ที่ใช้เป็นตัวอย่างด้านบนอย่างไร เท่าที่ฉันสามารถบอกได้ว่านี่เป็นเพียงสิ่งทดแทนดังนั้นคุณไม่จำเป็นต้องใส่มันลงในทุกหน้า
Kevin Peno

@ เควินพวกเขาควรจะเหมือนกันในแง่ของประสิทธิภาพ นี่จะง่ายกว่าที่จะจัดการอย่างที่คุณพูด
John Conde

4

ฉันคิดว่า Matt Cutts พูดคุยเกี่ยวกับเรื่องนี้ หากหน่วยความจำของฉันถูกต้องมันเกี่ยวข้องกับการเชื่อมโยง นี่คือเพิ่มเติม: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=th

คุณสามารถลบออกได้ด้วยเครื่องมือลบของ Google


คุณสามารถดูทั้งหมดได้ด้วย: site: gmpackageguide.com มี URL ไม่มาก ฉันคิดว่าพวกเขาอยู่ในดัชนีก่อนที่หุ่นยนต์จะไม่ได้รับอนุญาต ฉันจะลบพวกเขา
Joe

ในอนาคตฉันจะสั่งให้คนออกแบบเว็บไซต์รวมเสมอไม่มีดัชนีไม่ติดตามในส่วนหัวของหน้าเว็บ ฉันสงสัยว่า CMS ที่คุณใช้อยู่สามารถทำได้
Joe

@Joe - ยอมรับ แต่จะแนะนำnoindex, followเพื่อให้ PageRank ใด ๆ ถูกแจกจ่ายจากลิงก์ย้อนกลับที่อาจเกิดขึ้น
Mike Hudson

@Joe & @Mike ขอบคุณสำหรับข้อมูล อย่างไรก็ตามใช้เว็บไซต์: hyundaidigitalmarketing.com ฉันเปิดตัวเว็บไซต์นี้เมื่อปีที่แล้ว มันมีทั้งไฟล์ robots.txt และส่วนหัวเมตา อย่างไรก็ตามเนื่องจากคุณสามารถดูฟอร์มที่ทำการค้นหาใน google ด้วยsite:hyundaidigitalmarketing.comหรือสำหรับคำศัพท์hyundai digital marketingนั้นโดเมนนั้นจะยังคงปรากฏเป็นผลลัพธ์อันดับแรกและดีที่สุด ฉันต้องการป้องกันสิ่งนี้
Kevin Peno

นอกจากนี้การค้นหาlinks:hyundaidigitalmarketing.comแสดงลิงค์กลับ เห็นได้ชัดว่าฉันไม่สามารถป้องกันหรือควบคุมลิงก์ย้อนกลับการจัดรูปแบบและพวกเขาอาจถูกต้อง หากการเชื่อมโยงไปยังเว็บไซต์ทำให้สิ่งนี้ฉันต้องเข้าใจว่า / ทำไมเพื่อให้ฉันสามารถอธิบายสิ่งนี้กับผู้บังคับบัญชาของฉัน ฉันหวังว่านี่จะอธิบายคำถามของฉันได้ดีขึ้นเล็กน้อย
Kevin Peno

3

จากการวิจัยของฉันในเรื่องฉันพบว่าไม่มีวิธีการรับประกัน 100% ในการป้องกันการสร้างดัชนีและแคชข้อมูล แต่คุณสามารถเข้ามาใกล้มาก (สมมติว่าคุณต้องการจัดการกับปริมาณการรับส่งข้อมูลที่เพิ่มขึ้น) นี่คือวิธีที่ฉันตีความข้อมูล

อาจคิดว่าไฟล์ robots.txt ใช้เพื่อกำหนดข้อมูลทั่วทั้งเว็บไซต์และแท็กของหุ่นยนต์ที่ใช้สำหรับรายละเอียดเฉพาะของหน้า ฉันคิดว่าวิญญาณที่อยู่เบื้องหลังทั้ง 2 นั้นเป็นแบบนี้ แต่นี่ไม่ใช่ในทางปฏิบัติ

อย่าสร้างไฟล์robots.txt

สิ่งนี้ทำงานร่วมกับผู้ให้บริการการค้นหารายใหญ่ทั้งหมดเพื่อป้องกันไม่ให้เนื้อหาปรากฏบน SERP แต่ไม่ ได้ ป้องกันการสร้างดัชนี การทำเช่นนี้จะช่วยป้องกันบ็อตไม่ให้รวบรวมข้อมูลหน้าเว็บของคุณดังนั้นเมตาแท็กของหุ่นยนต์ (ดูด้านล่าง) ก็จะถูกละเว้นเช่นกัน ด้วยเหตุนี้คุณจึงไม่สามารถใช้ 2 ร่วมกันได้และนี่คือสาเหตุหากคุณต้องการป้องกันการสร้างดัชนีคุณไม่ควรใช้ไฟล์ robots.txt

หมายเหตุด้านข้าง: Google สนับสนุนการใช้งานNoindex: /ใน robots.txt แต่ไม่มีการบันทึกไว้ (ใครจะรู้ว่าจะพังเมื่อไร) และไม่ทราบว่าสิ่งนี้ใช้ได้กับคนอื่นหรือไม่

ใช้ส่วนหัว HTTP หรือแท็ก HTML META เพื่อป้องกันทุกอย่าง

แท็ก robots (และส่วนหัว HTTP) ต่างจากไฟล์ robots.txt ซึ่งได้รับการสนับสนุนอย่างกว้างขวางและน่าประหลาดใจคือฟีเจอร์ที่หลากหลาย มันถูกออกแบบมาเพื่อตั้งค่าในแต่ละหน้า แต่การยอมรับX-Robots-Tagส่วนหัวเมื่อเร็ว ๆ นี้ทำให้ง่ายต่อการตั้งค่าทั่วทั้งไซต์ ข้อเสียเพียงอย่างเดียวของวิธีนี้คือบอตจะรวบรวมข้อมูลเว็บไซต์ของคุณ นี้สามารถถูก จำกัด โดยใช้แต่ไม่ได้บอททุกอย่างแท้จริงเคารพnofollownofollow

ผมพบตันของข้อมูลในนี้ล้าสมัยบล็อกโพสต์ มันออกวางตลาดครั้งแรกเมื่อปี 2550 แต่เนื่องจากข้อมูลจำนวนมากเกี่ยวกับมันเป็นคุณสมบัติที่ใหม่กว่าตั้งแต่นั้นมาดูเหมือนว่าจะได้รับการอัปเดตเป็นประจำ

สรุปคุณควรส่ง HTTP X-Robots-Tag: noindex,nofollow,noodp,noydirส่วนหัวของ นี่คือเหตุผลที่ทำไม:

  • nofollowควร จำกัด จำนวนหน้าที่รวบรวมข้อมูลในเว็บไซต์ของคุณทำให้ปริมาณการใช้บอทลดลง * noindexบอกเอนจิ้นเพื่อไม่สร้างดัชนีหน้า
  • ทีนี้คุณอาจคิดว่านั่นnoindexอาจเพียงพอแล้ว อย่างไรก็ตามเราพบว่าแม้ว่าคุณจะบอกว่าnoindexเว็บไซต์ของคุณอาจถูกจัดทำดัชนีเนื่องจากเว็บไซต์อื่น ๆ ที่เชื่อมโยงไปถึง วิธีที่ดีที่สุดในการป้องกันการเชื่อมโยงเว็บไซต์ทั่วไปจาก Y! Directory ( noydir) และ Open Directory ( noodp)
  • การใช้ส่วนหัว HTTP ยังใช้ข้อมูลหุ่นยนต์กับไฟล์รูปภาพและไฟล์อื่น ๆ ที่ไม่ใช่ HTML! เย้!

จะใช้งานได้ใน 99% ของกรณี โปรดทราบว่าอาจเป็นไปได้ที่จะจัดทำดัชนีในบางกรณีโดยผู้ให้บริการบางราย Google อ้างว่าให้ความเคารพอย่างเต็มที่noindexแต่ฉันมีข้อสงสัย

ในที่สุดหากคุณได้รับการจัดทำดัชนีหรือได้รับการจัดทำดัชนีแล้ววิธีเดียวที่จะได้รับการจัดทำดัชนีข้อมูลของคุณคือการทำตามวิธีการต่าง ๆ จากผู้ให้บริการแต่ละรายเพื่อขอลบเว็บไซต์ / URL เห็นได้ชัดว่านี่หมายความว่าคุณอาจต้องการตรวจสอบเว็บไซต์ / หน้าเว็บโดยใช้บางสิ่งเช่นGoogle Alerts (ขอบคุณ @Joe)


3

ฉันคิดว่าปัญหาพื้นฐานของคุณคือการเชื่อมโยงย้อนกลับไปยังเว็บไซต์เนื่องจากสิ่งเหล่านี้ทำให้เครื่องมือค้นหาเป็นจุดเริ่มต้นไปยังไซต์และทำให้พวกเขารับรู้ ดังนั้นแม้ว่าพวกเขาจะไม่แสดงคำอธิบายสำหรับเว็บไซต์พวกเขาอาจแสดง URL หากพวกเขาคิดว่ามันเหมาะสมที่สุดสำหรับผลลัพธ์

มีการอ่านบทความนี้เชื่อมโยงกับจาก @joe โพสต์: Matt Cutts ทำให้ google ออก

บิตที่สำคัญคือ:

มีเหตุผลที่ดีอยู่ที่: ย้อนกลับไปเมื่อฉันเริ่มต้นที่ Google ในปี 2000 เว็บไซต์ที่มีประโยชน์มากมาย (eBay, New York Times, California DMV) มีไฟล์ robots.txt ที่ห้ามไม่ให้หน้าใด ๆ ดึงข้อมูลใด ๆ ตอนนี้ฉันถามคุณเราควรจะกลับมาเป็นผลการค้นหาเมื่อใครบางคนทำแบบสอบถาม [california dmv]? เราดูน่าเศร้าถ้าเราไม่ส่งคืน www.dmv.ca.gov เป็นผลลัพธ์แรก แต่จำไว้ว่า: เราไม่ได้รับอนุญาตให้ดึงหน้าจาก www.dmv.ca.gov ณ จุดนั้น ทางออกคือการแสดงลิงค์ที่ไม่ได้วาดออกมาเมื่อเรามีความมั่นใจในระดับสูงว่าเป็นลิงค์ที่ถูกต้อง บางครั้งเราสามารถดึงคำอธิบายจาก Open Directory Project เพื่อให้เราสามารถให้ข้อมูลกับผู้ใช้จำนวนมากได้โดยไม่ต้องดึงหน้า

งานวิจัยที่คุณทำครอบคลุมเรื่องที่เงียบดีและคำตอบของ @john และ @joe นั้นเกี่ยวข้องกัน ฉันได้รวมลิงก์ด้านล่างซึ่งให้คำแนะนำเพิ่มเติมเกี่ยวกับการบล็อกเครื่องมือค้นหา วิธีเดียวที่ฉันคิดว่าปิดกั้นเว็บไซต์อย่างสมบูรณ์คือการเพิ่มการป้องกันด้วยรหัสผ่านในรูปแบบด้านหน้าของไซต์ที่ต้องทำให้เสร็จก่อนที่จะแสดงเนื้อหา

SEOMoz เคล็ดลับในการไม่ปรากฏในการค้นหา


ขอขอบคุณสำหรับการเพิ่มการสนทนา. การป้องกันรหัสผ่านทำงานได้ดีเพื่อป้องกันการรวบรวมข้อมูล แต่ไม่ได้ป้องกันการสร้างดัชนี เนื่องจาก robots.txt ทำงานได้ดีในการหยุดสิ่งนี้ข้อได้เปรียบเพียงอย่างเดียวของการป้องกันด้วยรหัสผ่านก็คือมันจะป้องกันไม่ให้บุคคลอื่นมองดู น่าเสียดายที่เนื้อหาส่วนใหญ่ไม่อ่อนไหวพอที่จะ "ได้รับการป้องกัน" และแน่นอนว่าไม่ได้รับประกันปัญหาการใช้งานที่สร้างขึ้น [ต่อ ... ]
Kevin Peno

การเปรียบเทียบฉันพบว่ามีประโยชน์ที่สุดในการวิจัยของฉันคือการเปรียบเทียบกับสมุดโทรศัพท์ หากเครื่องมือค้นหาเป็นสมุดโทรศัพท์และคุณขอให้ไม่อยู่ในรายการคุณสามารถขอให้ไม่อยู่ในรายการได้ตลอดกาลและพวกเขาควรเคารพสิ่งนั้น น่าเสียดายที่เสิร์ชเอ็นจิ้นทำตัวคล้ายกับ บริษัท ที่ บริษัท อื่นขายรายชื่อติดต่อซึ่งจะมอบให้กับทุกคนที่ยินดีจ่าย / ถาม
เควิน Peno

@ เควินฉันเข้าใจสิ่งที่คุณพูด แต่น่าเสียดายที่ฉันไม่คิดว่ามันจะเป็นไปได้ที่จะถูกลบออกอย่างสมบูรณ์ด้วยวิธีการที่เครื่องมือค้นหาทำงานในปัจจุบันสิ่งที่ดีที่สุดที่คุณหวังคือเพียงแค่รายชื่อ URL ในกรณีนั้น
Matthew Brookes

โอ้ฉันเข้าใจแล้วตอนนี้ (หลังการวิจัย) นอกจากนี้โปรดอย่าใช้ความคิดเห็นของฉันกับคำตอบของคุณในแง่ลบ ฉันเห็นคุณค่าของการเพิ่มในหัวข้อฉันเพียงแค่ตอบกลับเพื่อเพิ่มในข้อเสียของการใช้วิธีแก้ไขปัญหาดังกล่าวรวมทั้งเพิ่มการพูดนอกเรื่องเล็กน้อยที่ฉันคิด : P
Kevin Peno
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.