ฉันต้องการซ่อนไฟล์ XML แผนผังเว็บไซต์จากทั้งหมด แต่อนุญาตให้เข้าถึงได้จากเครื่องมือค้นหา
วิธีการทำคืออะไร?
ฉันต้องการซ่อนเนื้อหาของเว็บไซต์จากคู่แข่ง
ฉันต้องการซ่อนไฟล์ XML แผนผังเว็บไซต์จากทั้งหมด แต่อนุญาตให้เข้าถึงได้จากเครื่องมือค้นหา
วิธีการทำคืออะไร?
ฉันต้องการซ่อนเนื้อหาของเว็บไซต์จากคู่แข่ง
คำตอบ:
ขั้นตอนแรกคือการตรวจสอบ User-Agent ของบ็อตที่คุณต้องการอนุญาตและให้บริการไฟล์อื่นหากไม่ใช่ User-Agent ที่คุณต้องการอนุญาต
ตัวอย่างเช่นคุณอาจมีสองรุ่นหนึ่งที่มีและเป็นหนึ่งโดยไม่ต้องมีการอ้างอิงถึงแผนผังเว็บไซต์เพื่อให้คู่แข่งของคุณจะไม่พบแผนผังไซต์ถ้าพวกเขาดูภายในของคุณrobots.txt
robots.txt
จากนั้นคุณสามารถตรวจพบการเข้าชม URL แผนผังไซต์ของคุณและแสดงแผนที่ไซต์เฉพาะเมื่อ UA นั้นถูกต้อง หากคุณแสดงหน้า 404 ทั่วไปมิฉะนั้นคู่แข่งของคุณอาจไม่ทราบว่ามีแผนผังไซต์ของคุณอยู่
อย่างไรก็ตามมาตรการทั้งหมดที่อธิบายถึงจุดนี้เป็นเพียงความปลอดภัยผ่านความสับสน User-Agent สามารถปลอมแปลงได้อย่างง่ายดาย
ดังนั้น Google แนะนำให้ตรวจสอบ GoogleBot ตัวจริงของคุณ:
googlebot.com.
ตรวจสอบว่าโฮสต์โดเมนย่อยของหากต้องการสรุป:
Microsoft แนะนำให้ใช้ขั้นตอนเดียวกันเพื่อตรวจสอบซอฟต์แวร์รวบรวมข้อมูล
เคล็ดลับนี้ใช้ได้กับ Yahoo! เช่นกัน
สำหรับ DuckDuckGo คุณสามารถใช้รายการที่อยู่ IP นี้ได้
คุณไม่จำเป็นต้องใช้ข้อผิดพลาด 404 ถ้าคุณใช้การตรวจหาสไปเดอร์แบบอิงการค้นหา DNS
วัตถุประสงค์ของการใช้หน้าข้อผิดพลาด 404 คือเพื่อปกปิดว่าแผนผังเว็บไซต์ของคุณมีอยู่ทั้งหมด อย่างไรก็ตามหากคุณใช้เทคนิคขั้นสูงที่ไม่ได้ขึ้นอยู่กับUser-Agent
ส่วนหัวเพียงอย่างเดียวคุณไม่ควรหลีกเลี่ยงเพื่อให้คุณสามารถใช้รหัสข้อผิดพลาดอื่นได้อย่างปลอดภัยเช่น403 Forbidden
ซึ่งเป็นรหัสข้อผิดพลาดที่ถูกต้องเพื่อใช้ที่นี่
ปัญหาคือถ้าคุณ (ค่อนข้างถูกต้อง) ต้องการให้เนื้อหาของคุณถูกทำดัชนีโดยเสิร์ชเอ็นจิ้นใครก็ตามที่ทำเว็บไซต์: ค้นหาในหนึ่งในเสิร์ชเอนจิ้นจะสามารถดูว่ามีการจัดทำดัชนี URL ใด
หากคุณต้องการ "ซ่อน" แผนผังไซต์ของคุณคุณสามารถใส่ไว้ใน URL ที่มีชื่อ "ลับ" ดังนั้นจึงไม่เป็นที่ประจักษ์สำหรับทุกคนที่กำลังมองหามัน จัดไฟล์และอัปโหลดไปยังโปรไฟล์เครื่องมือเว็บมาสเตอร์ของเครื่องมือค้นหาอย่างที่คนอื่นพูดไว้มันยากที่จะดูว่าทำไมคุณต้องทำเช่นนี้
โซลูชันที่มีเล่ห์เหลี่ยมคือการสร้างแผนผังไซต์สองรายการ ครั้งแรกของเหล่านี้เพื่อประโยชน์ของคู่แข่งของคุณที่สองคือเพื่อประโยชน์ของเครื่องมือค้นหาที่คุณต้องการ ในการพูดจาทางทหารแผนผังเว็บไซต์แรกนี้เป็นกลลวง
'feint' มีโครงสร้างเว็บไซต์พื้นฐานหน้าหลักติดต่อเราเกี่ยวกับเราหมวดหมู่หลัก ดูเหมือนว่าเป็นเรื่องจริงและจะทำงานได้ดีในเครื่องมือค้นหาที่คลุมเครือซึ่งคุณไม่สนใจ มันจะไม่ใช้กับคู่แข่งของคุณ อนุญาตให้ทำดัชนีเพื่อให้พบได้ตั้งชื่อที่ชัดเจนเช่น sitemap.xml
ตอนนี้สร้างแผนผังไซต์จริงของคุณด้วยรหัส ตั้งชื่อเช่น 'product-information-sitemap.xml' เพื่อให้เป็นชื่อที่สมเหตุสมผล แต่ไม่สามารถเดาได้ง่ายกว่ารหัสผ่านของคุณ
ในการกำหนดค่า apache ของคุณสำหรับโฟลเดอร์ sitemap ให้วางบางสิ่งบางอย่างไว้เพื่อให้ Sitemap นี้สามารถเข้าถึงได้โดยเครื่องมือค้นหา แต่ไม่ได้จัดทำดัชนี:
<IfModule mod_rewrite.c>
<Files product-information-sitemap.xml>
Header set X-Robots-Tag "noindex"
</Files>
</IfModule>
ตอนนี้สร้างรหัสเพื่อให้ปรับปรุงนั้นพิจารณาแผนผังเว็บไซต์ที่สามสำหรับภาพ ดาวโจนส์ปรับรุ่นตามต้องการเพื่อสร้าง 'feint' ให้ความสนใจกับการประทับเวลาด้วย Google ก็ให้ความสำคัญกับสิ่งเหล่านี้และนี่เป็นสิ่งสำคัญหากแผนผังไซต์ของคุณใหญ่
ตอนนี้สร้างงาน 'cron' เพื่อส่งแผนผังไซต์ผลิตภัณฑ์ของคุณไปยัง Google เป็นประจำ ในรายการ crontab ของคุณให้เพิ่มสิ่งนี้เพื่อส่งแผนผังไซต์ที่แท้จริงของคุณทุกสัปดาห์:
0 0 * * 0 wget www.google.com/webmasters/tools/ping?sitemap=http%3A%2F%2Fwww.example.com%2Fsitemaps%2Fproduct-information-sitemap.xml
โปรดทราบว่า URL นั้นได้รับการเข้ารหัส URL
คุณสามารถ gzip sitemap ของคุณได้หากขนาดเป็นปัญหาแม้ว่าเว็บเซิร์ฟเวอร์ของคุณควรให้บริการ gzipped นั้นถ้าคุณเปิดใช้งาน
robots.txt ของคุณไม่จำเป็นต้องมีอะไรพิเศษตราบใดที่มันไม่ขัดขวางการเข้าสู่แผนผังไซต์ของคุณมันก็น่าจะใช้ได้ ไม่จำเป็นต้องส่งไฟล์ robots.txt อื่น ๆ ตามสตริงตัวแทนผู้ใช้หรืออะไรก็ตามที่ซับซ้อน เพียงดึงเนื้อหาที่มีค่าของคุณลงในไฟล์เสริมที่ไม่มีโฆษณาและส่งไปยัง Google ในงาน cron (แทนที่จะรอบอท) ง่าย
ฉันไม่เห็นว่าทำไมโครงสร้างของเว็บไซต์อาจทำให้คุณมีปัญหากับคู่แข่ง
จุดประสงค์ของ Sitemap คือการจัดทำดัชนีหน้าเว็บเพื่อให้ผู้คนสามารถค้นหาได้ง่ายขึ้นซึ่งเมื่อถึงจุดหนึ่งจะต้องเปิดเผยวิธีการจัดระเบียบไซต์ของคุณเช่น:
/news/
มีบทความข่าวของคุณ/forum/
เป็นที่ที่การอภิปรายในฟอรัมทั้งหมดอยู่สิ่งเหล่านั้นจะสามารถจัดทำดัชนีได้เพื่อเพิ่มปริมาณการใช้ข้อมูลและนำเสนอข้อมูล
โฟลเดอร์ที่คุณไม่ต้องการมีดัชนีก็เหมือนกัน
จากนั้นถ้าเป็นเช่นนั้นไม่ควรอยู่ในแผนผังไซต์ของคุณเลย รวมทั้งคุณสามารถแยกสิ่งเหล่านั้นออกจากการจัดทำดัชนีได้เช่นกัน
หากคุณมี IPaddresses ของบอทที่คุณต้องการอนุญาต:
<Limit GET POST PUT>
order deny,allow
deny from all
allow from 192.168.1.1 # IP 1
allow from 192.168.1.2 # IP 3
allow from 192.168.1.3 # IP 2
</LIMIT>
ถ้าคุณต้องการมันขึ้นอยู่กับสตริงตัวแทนผู้ใช้:
Order Allow,Deny
allow from env=good_bot_1
allow from env=good_bot_2
วิธีหนึ่งที่คุณสามารถลอง: ในช่วงการรวบรวมข้อมูลตามปกติ Google จะบอตเข้าถึง robots.txt แล้วไปที่ไฟล์แผนผังไซต์ ผลักดันคุกกี้สำหรับเสิร์ฟทั้งหมดของ robots.txt และอนุญาตให้เข้าถึงแผนผังไซต์เฉพาะผู้ที่มีคุกกี้เท่านั้น จะมีปัญหาเมื่อ Google บอทไม่ยอมรับคุกกี้ ทำตรงกันข้าม ดันคุกกี้เมื่อผู้ใช้เข้าถึงหน้าอื่นนอกเหนือจาก robots.txt และปฏิเสธการเข้าถึงแผนผังเว็บไซต์สำหรับผู้ที่มีคุกกี้ นอกจากนี้ให้ตั้งชื่อสัญญาณรบกวนกับแผนผังเว็บไซต์ของคุณสิ่งที่เปลี่ยนแปลงตามเวลาและทำให้ไม่สามารถคาดเดาได้ หากคู่แข่งของคุณมีการเปิดใช้งานคุกกี้ในเบราว์เซอร์ของพวกเขามันจะเป็นเรื่องยากมากสำหรับพวกเขาในการเข้าถึงแผนผังเว็บไซต์เว้นแต่พวกเขาทำตามเส้นทางที่แน่นอนที่เครื่องมือค้นหากำลังติดตาม
ฉันตั้งสมมติฐานว่าฉันเข้าใจความต้องการของคุณอย่างถูกต้องดังนั้นฉันจึงแสดงความกล้าหาญที่จะตอบ
ให้ลิงค์ภาพกับแผนผังเว็บไซต์ของคุณก่อน</html>
แท็กของคุณ ใช้ไฟล์โปร่งใส 1px gif:
<a href="sitemap.xml"><img src="transparent.gif" alt="" height="1" width="1" /></a>
ในหน้าเว็บที่มีลิงค์ของแผนผังเว็บไซต์ให้ตั้งเมตาแท็กที่เกี่ยวข้อง:
<meta name="robots" content="{index or noindex},follow">
ตรวจสอบสถานะภาพเมื่อคุณกดCtrl+ Aเพื่อเลือกทุกหน้า ลิงก์ 1px มองเห็นได้มีความเสี่ยงหรือไม่
หากคุณตอบว่าใช่อาจเป็นตัวเลือกอื่นคือ:
<a href="sitemap.xml"> </a>
วิธีนี้ทำให้ผู้ใช้ทั่วไปที่ไม่น่าเชื่อถือจะไม่สังเกตเห็นลิงก์ของคุณ เครื่องมือค้นหาจะตระหนักถึงมัน แต่โปรดระวังลักษณะโดยธรรมชาติของคำถามของคุณที่เกี่ยวข้องกับความเป็นไปไม่ได้
ฉันบอกว่าเป็นไปไม่ได้เพราะถ้าผู้ใช้ค้นหาใน Google ด้วยคำนี้
* site:www.yoursite.com
ทั้งโลกสามารถดูลิงก์ทั้งหมดของคุณได้หากพวกเขาไม่เบื่อที่จะคลิกnext
ลิงก์
ฉันหวังว่าสิ่งเหล่านี้ช่วย