วิธีซ่อน XML Sitemap ของฉันจากคู่แข่ง แต่ไม่ใช่จากเครื่องมือค้นหา


10

ฉันต้องการซ่อนไฟล์ XML แผนผังเว็บไซต์จากทั้งหมด แต่อนุญาตให้เข้าถึงได้จากเครื่องมือค้นหา

วิธีการทำคืออะไร?

ฉันต้องการซ่อนเนื้อหาของเว็บไซต์จากคู่แข่ง


1
หากไซต์และหน้านั้นไม่ได้รับการป้องกันด้วยผู้ใช้และรหัสผ่านผู้ใช้สามารถเรียกดูได้พวกเขาเพียงแค่ต้องติดตามลิงก์ในเว็บไซต์ของคุณเอง
PatomaS

ฉันสามารถตรวจสอบ IP ของ Google bot และอนุญาตและปฏิเสธผู้อื่น แม้ว่าเราจะไม่สามารถรับรายการ IP ทั้งหมดของ Googlebot ได้
AgA

คำตอบ:


9

ขั้นตอนแรกคือการตรวจสอบ User-Agent ของบ็อตที่คุณต้องการอนุญาตและให้บริการไฟล์อื่นหากไม่ใช่ User-Agent ที่คุณต้องการอนุญาต

ตัวอย่างเช่นคุณอาจมีสองรุ่นหนึ่งที่มีและเป็นหนึ่งโดยไม่ต้องมีการอ้างอิงถึงแผนผังเว็บไซต์เพื่อให้คู่แข่งของคุณจะไม่พบแผนผังไซต์ถ้าพวกเขาดูภายในของคุณrobots.txtrobots.txt

จากนั้นคุณสามารถตรวจพบการเข้าชม URL แผนผังไซต์ของคุณและแสดงแผนที่ไซต์เฉพาะเมื่อ UA นั้นถูกต้อง หากคุณแสดงหน้า 404 ทั่วไปมิฉะนั้นคู่แข่งของคุณอาจไม่ทราบว่ามีแผนผังไซต์ของคุณอยู่

อย่างไรก็ตามมาตรการทั้งหมดที่อธิบายถึงจุดนี้เป็นเพียงความปลอดภัยผ่านความสับสน User-Agent สามารถปลอมแปลงได้อย่างง่ายดาย

ดังนั้น Google แนะนำให้ตรวจสอบ GoogleBot ตัวจริงของคุณ:

  1. ดำเนินการค้นหา DNS ย้อนกลับสำหรับที่อยู่ IP ที่อ้างว่าเป็น GoogleBot
  2. googlebot.com.ตรวจสอบว่าโฮสต์โดเมนย่อยของ
  3. ทำการค้นหา DNS ปกติสำหรับโดเมนย่อย
  4. ตรวจสอบว่าโดเมนย่อยชี้ไปที่ที่อยู่ IP ของบอทรวบรวมข้อมูลเว็บไซต์ของคุณหรือไม่

หากต้องการสรุป:

แผนภูมิการไหล (เมื่อแสดงแผนที่เว็บไซต์)

Microsoft แนะนำให้ใช้ขั้นตอนเดียวกันเพื่อตรวจสอบซอฟต์แวร์รวบรวมข้อมูล

เคล็ดลับนี้ใช้ได้กับ Yahoo! เช่นกัน

สำหรับ DuckDuckGo คุณสามารถใช้รายการที่อยู่ IP นี้ได้

บันทึก

คุณไม่จำเป็นต้องใช้ข้อผิดพลาด 404 ถ้าคุณใช้การตรวจหาสไปเดอร์แบบอิงการค้นหา DNS

วัตถุประสงค์ของการใช้หน้าข้อผิดพลาด 404 คือเพื่อปกปิดว่าแผนผังเว็บไซต์ของคุณมีอยู่ทั้งหมด อย่างไรก็ตามหากคุณใช้เทคนิคขั้นสูงที่ไม่ได้ขึ้นอยู่กับUser-Agentส่วนหัวเพียงอย่างเดียวคุณไม่ควรหลีกเลี่ยงเพื่อให้คุณสามารถใช้รหัสข้อผิดพลาดอื่นได้อย่างปลอดภัยเช่น403 Forbiddenซึ่งเป็นรหัสข้อผิดพลาดที่ถูกต้องเพื่อใช้ที่นี่


6

ปัญหาคือถ้าคุณ (ค่อนข้างถูกต้อง) ต้องการให้เนื้อหาของคุณถูกทำดัชนีโดยเสิร์ชเอ็นจิ้นใครก็ตามที่ทำเว็บไซต์: ค้นหาในหนึ่งในเสิร์ชเอนจิ้นจะสามารถดูว่ามีการจัดทำดัชนี URL ใด

หากคุณต้องการ "ซ่อน" แผนผังไซต์ของคุณคุณสามารถใส่ไว้ใน URL ที่มีชื่อ "ลับ" ดังนั้นจึงไม่เป็นที่ประจักษ์สำหรับทุกคนที่กำลังมองหามัน จัดไฟล์และอัปโหลดไปยังโปรไฟล์เครื่องมือเว็บมาสเตอร์ของเครื่องมือค้นหาอย่างที่คนอื่นพูดไว้มันยากที่จะดูว่าทำไมคุณต้องทำเช่นนี้


ในกรณีที่ Google Webmaster Tools / Search Console คุณไม่จำเป็นต้องอัพโหลด คุณสามารถเพิ่ม URL แผนผังเว็บไซต์ที่ซ่อนไว้เพียงครั้งเดียวและมันจะยังคงใช้งานต่อไป
Devabc

4

โซลูชันที่มีเล่ห์เหลี่ยมคือการสร้างแผนผังไซต์สองรายการ ครั้งแรกของเหล่านี้เพื่อประโยชน์ของคู่แข่งของคุณที่สองคือเพื่อประโยชน์ของเครื่องมือค้นหาที่คุณต้องการ ในการพูดจาทางทหารแผนผังเว็บไซต์แรกนี้เป็นกลลวง

'feint' มีโครงสร้างเว็บไซต์พื้นฐานหน้าหลักติดต่อเราเกี่ยวกับเราหมวดหมู่หลัก ดูเหมือนว่าเป็นเรื่องจริงและจะทำงานได้ดีในเครื่องมือค้นหาที่คลุมเครือซึ่งคุณไม่สนใจ มันจะไม่ใช้กับคู่แข่งของคุณ อนุญาตให้ทำดัชนีเพื่อให้พบได้ตั้งชื่อที่ชัดเจนเช่น sitemap.xml

ตอนนี้สร้างแผนผังไซต์จริงของคุณด้วยรหัส ตั้งชื่อเช่น 'product-information-sitemap.xml' เพื่อให้เป็นชื่อที่สมเหตุสมผล แต่ไม่สามารถเดาได้ง่ายกว่ารหัสผ่านของคุณ

ในการกำหนดค่า apache ของคุณสำหรับโฟลเดอร์ sitemap ให้วางบางสิ่งบางอย่างไว้เพื่อให้ Sitemap นี้สามารถเข้าถึงได้โดยเครื่องมือค้นหา แต่ไม่ได้จัดทำดัชนี:

<IfModule mod_rewrite.c>
    <Files product-information-sitemap.xml>
        Header set X-Robots-Tag "noindex"
    </Files>
</IfModule>

ตอนนี้สร้างรหัสเพื่อให้ปรับปรุงนั้นพิจารณาแผนผังเว็บไซต์ที่สามสำหรับภาพ ดาวโจนส์ปรับรุ่นตามต้องการเพื่อสร้าง 'feint' ให้ความสนใจกับการประทับเวลาด้วย Google ก็ให้ความสำคัญกับสิ่งเหล่านี้และนี่เป็นสิ่งสำคัญหากแผนผังไซต์ของคุณใหญ่

ตอนนี้สร้างงาน 'cron' เพื่อส่งแผนผังไซต์ผลิตภัณฑ์ของคุณไปยัง Google เป็นประจำ ในรายการ crontab ของคุณให้เพิ่มสิ่งนี้เพื่อส่งแผนผังไซต์ที่แท้จริงของคุณทุกสัปดาห์:

0 0 * * 0 wget www.google.com/webmasters/tools/ping?sitemap=http%3A%2F%2Fwww.example.com%2Fsitemaps%2Fproduct-information-sitemap.xml

โปรดทราบว่า URL นั้นได้รับการเข้ารหัส URL

คุณสามารถ gzip sitemap ของคุณได้หากขนาดเป็นปัญหาแม้ว่าเว็บเซิร์ฟเวอร์ของคุณควรให้บริการ gzipped นั้นถ้าคุณเปิดใช้งาน

robots.txt ของคุณไม่จำเป็นต้องมีอะไรพิเศษตราบใดที่มันไม่ขัดขวางการเข้าสู่แผนผังไซต์ของคุณมันก็น่าจะใช้ได้ ไม่จำเป็นต้องส่งไฟล์ robots.txt อื่น ๆ ตามสตริงตัวแทนผู้ใช้หรืออะไรก็ตามที่ซับซ้อน เพียงดึงเนื้อหาที่มีค่าของคุณลงในไฟล์เสริมที่ไม่มีโฆษณาและส่งไปยัง Google ในงาน cron (แทนที่จะรอบอท) ง่าย


0

ฉันไม่เห็นว่าทำไมโครงสร้างของเว็บไซต์อาจทำให้คุณมีปัญหากับคู่แข่ง

จุดประสงค์ของ Sitemap คือการจัดทำดัชนีหน้าเว็บเพื่อให้ผู้คนสามารถค้นหาได้ง่ายขึ้นซึ่งเมื่อถึงจุดหนึ่งจะต้องเปิดเผยวิธีการจัดระเบียบไซต์ของคุณเช่น:

  • /news/ มีบทความข่าวของคุณ
  • /forum/ เป็นที่ที่การอภิปรายในฟอรัมทั้งหมดอยู่

สิ่งเหล่านั้นจะสามารถจัดทำดัชนีได้เพื่อเพิ่มปริมาณการใช้ข้อมูลและนำเสนอข้อมูล

โฟลเดอร์ที่คุณไม่ต้องการมีดัชนีก็เหมือนกัน

  • คลาส PHP และฟังก์ชั่นที่อนุญาตให้ไซต์ทำงานได้
  • ภาพไซต์, CSS, โฟลเดอร์ JavaScript
  • แผงการบริหาร

จากนั้นถ้าเป็นเช่นนั้นไม่ควรอยู่ในแผนผังไซต์ของคุณเลย รวมทั้งคุณสามารถแยกสิ่งเหล่านั้นออกจากการจัดทำดัชนีได้เช่นกัน


0

หากคุณมี IPaddresses ของบอทที่คุณต้องการอนุญาต:

<Limit GET POST PUT>
order deny,allow
deny from all
allow from 192.168.1.1 # IP 1
allow from 192.168.1.2 # IP 3
allow from 192.168.1.3 # IP 2
</LIMIT>

ถ้าคุณต้องการมันขึ้นอยู่กับสตริงตัวแทนผู้ใช้:

Order Allow,Deny
allow from env=good_bot_1
allow from env=good_bot_2

รายการที่อยู่ ip ของ Google สมบูรณ์ Bing เป็นความลับ พวกเขาจะไม่เปิดเผยสิ่งนี้ต่อโลกเพราะมันมีความเสี่ยงสูงที่จะถูกปิดบังโดยเว็บไซต์
AgA

และนั่นคือเหตุผลที่ฉันได้เพิ่มความเป็นไปได้ที่ 2 :) ชื่อเป็นเรื่องง่ายขึ้นมาก แต่ต้องการที่จะให้คำตอบที่สมบูรณ์
Martijn

0

วิธีหนึ่งที่คุณสามารถลอง: ในช่วงการรวบรวมข้อมูลตามปกติ Google จะบอตเข้าถึง robots.txt แล้วไปที่ไฟล์แผนผังไซต์ ผลักดันคุกกี้สำหรับเสิร์ฟทั้งหมดของ robots.txt และอนุญาตให้เข้าถึงแผนผังไซต์เฉพาะผู้ที่มีคุกกี้เท่านั้น จะมีปัญหาเมื่อ Google บอทไม่ยอมรับคุกกี้ ทำตรงกันข้าม ดันคุกกี้เมื่อผู้ใช้เข้าถึงหน้าอื่นนอกเหนือจาก robots.txt และปฏิเสธการเข้าถึงแผนผังเว็บไซต์สำหรับผู้ที่มีคุกกี้ นอกจากนี้ให้ตั้งชื่อสัญญาณรบกวนกับแผนผังเว็บไซต์ของคุณสิ่งที่เปลี่ยนแปลงตามเวลาและทำให้ไม่สามารถคาดเดาได้ หากคู่แข่งของคุณมีการเปิดใช้งานคุกกี้ในเบราว์เซอร์ของพวกเขามันจะเป็นเรื่องยากมากสำหรับพวกเขาในการเข้าถึงแผนผังเว็บไซต์เว้นแต่พวกเขาทำตามเส้นทางที่แน่นอนที่เครื่องมือค้นหากำลังติดตาม


0

ฉันตั้งสมมติฐานว่าฉันเข้าใจความต้องการของคุณอย่างถูกต้องดังนั้นฉันจึงแสดงความกล้าหาญที่จะตอบ

ให้ลิงค์ภาพกับแผนผังเว็บไซต์ของคุณก่อน</html>แท็กของคุณ ใช้ไฟล์โปร่งใส 1px gif:

<a href="sitemap.xml"><img src="transparent.gif" alt="" height="1" width="1" /></a>

ในหน้าเว็บที่มีลิงค์ของแผนผังเว็บไซต์ให้ตั้งเมตาแท็กที่เกี่ยวข้อง:

<meta name="robots" content="{index or noindex},follow">

ตรวจสอบสถานะภาพเมื่อคุณกดCtrl+ Aเพื่อเลือกทุกหน้า ลิงก์ 1px มองเห็นได้มีความเสี่ยงหรือไม่

หากคุณตอบว่าใช่อาจเป็นตัวเลือกอื่นคือ:

  1. สร้างลิงค์ไปยังแผนผังเว็บไซต์ของคุณ: <a href="sitemap.xml">&nbsp;</a>
  2. เปลี่ยนสีตัวอักษรเดียวกันกับสีพื้นหลัง
  3. ใช้เทคนิค CSS ซ่อนลิงค์นี้ไว้ด้านหลังภาพ

วิธีนี้ทำให้ผู้ใช้ทั่วไปที่ไม่น่าเชื่อถือจะไม่สังเกตเห็นลิงก์ของคุณ เครื่องมือค้นหาจะตระหนักถึงมัน แต่โปรดระวังลักษณะโดยธรรมชาติของคำถามของคุณที่เกี่ยวข้องกับความเป็นไปไม่ได้

ฉันบอกว่าเป็นไปไม่ได้เพราะถ้าผู้ใช้ค้นหาใน Google ด้วยคำนี้

* site:www.yoursite.com

ทั้งโลกสามารถดูลิงก์ทั้งหมดของคุณได้หากพวกเขาไม่เบื่อที่จะคลิกnextลิงก์

ฉันหวังว่าสิ่งเหล่านี้ช่วย


ทำไมสิ่งนี้จะทำให้ผู้ใช้หยุดการค้นหา / เข้าถึงแผนผังไซต์ XML เมื่อคุณไม่เชื่อมโยงกับแผนผังไซต์ XML ของคุณเป็นปกติ
MrWhite

ฉันถามคำถามเดียวกันกับตัวเอง แต่นั่นคือสิ่งที่ฉันเข้าใจจากเจ้าของคำถาม ฉันคิดว่านี่เป็นสิ่งที่เขาต้องการ ฉันไม่แน่ใจ :-)
Andre Chenier
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.