ไซต์ถูกแฮ็กจำเป็นต้องลบ URL ทั้งหมดที่ขึ้นต้นด้วย + จาก Google ใช้ robots.txt หรือไม่


15

คุณช่วยบอกให้ฉันทราบวิธีปิดกั้น URL ดังกล่าวจากrobots.txtเพื่อให้ Google บอตหยุดทำดัชนีได้หรือไม่

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

เว็บไซต์ของฉันถูกแฮ็กซึ่งถูกกู้คืนแล้วในขณะนี้ แต่แฮ็กเกอร์ได้จัดทำดัชนี URL 5,000 รายการใน Google และตอนนี้ฉันได้รับข้อผิดพลาด 404 จากลิงค์ที่สร้างขึ้นแบบสุ่มตามที่กล่าวไว้ข้างต้นทั้งหมดเริ่มต้นด้วย/+ลิงก์ด้านบน

ฉันสงสัยว่ามีวิธีที่รวดเร็วกว่าการลบ URL เหล่านี้ออกจาก Google Webmaster Tools หรือไม่

เราสามารถบล็อคสิ่งนี้กับrobots.txtURL ที่ขึ้นต้นด้วย+เครื่องหมายได้หรือไม่?


2
ไม่มีอะไรพิเศษเกี่ยวกับ+(บวก) ในเส้นทาง URL มันเป็นเพียงตัวละครที่เหมือนกัน
MrWhite

คุณสามารถ Apache เปลี่ยนเส้นทาง (ใน. htaccess) ไปยังไฟล์หรือไดเรกทอรีซึ่ง robots.txt ห้ามไม่ให้โรบอตเข้าถึง
Ot

@Mawg สิ่งที่เป็นจุดของการทำเช่นนั้น?
MrWhite

เพื่อรักษาหุ่นยนต์ที่ประพฤติดีออกมา?
Mawg กล่าวว่าคืนสถานะโมนิก้า

2
เป็นอิสระจากปัญหาของ URL คุณอาจต้องการอ่านฉันจะจัดการกับเซิร์ฟเวอร์ที่ถูกบุกรุกได้อย่างไร
Jonas Schäfer

คำตอบ:


30

เว็บไซต์ของฉันถูกแฮ็กซึ่งตอนนี้ถูกกู้คืนแล้ว แต่แฮกเกอร์ทำดัชนี 5,000 URL ใน Google และตอนนี้ฉันได้รับข้อผิดพลาด 404

404 อาจจะดีกว่าrobots.txtถ้าคุณต้องการปิดกั้นURL เหล่านี้จากเครื่องมือค้นหา (เช่น Google) หากคุณบล็อกการรวบรวมข้อมูล URL จะยังคงสามารถทำดัชนีได้ (โปรดทราบว่าrobots.txtส่วนใหญ่บล็อกการรวบรวมข้อมูลไม่ใช่การจัดทำดัชนี )

หากคุณต้องการ "เร่งความเร็ว" การจัดทำดัชนีของ URL เหล่านี้คุณอาจแสดง "410 Gone" แทน "404 Not Found" ตามปกติ คุณสามารถทำสิ่งต่อไปนี้กับ mod_rewrite (Apache) ใน.htaccessไฟล์รูทของคุณ:

RewriteEngine On
RewriteRule ^\+ - [G]

14

ฉันจะตอบคำถามที่ 2

ฉันสงสัยว่ามีวิธีอื่นนอกเหนือจากการลบ URL เหล่านี้ด้วยตนเองจากเครื่องมือเว็บมาสเตอร์ของ Google หรือไม่

https://developers.google.com/webmasters/hacked/docs/clean_site

Google ระบุอย่างชัดเจนว่าการลบผ่าน Google Search Console (ชื่อใหม่ของเครื่องมือเว็บมาสเตอร์) นั้นเร็วที่สุด

หากแฮกเกอร์สร้าง URL ที่ผู้ใช้มองเห็นได้ใหม่คุณสามารถลบหน้าเหล่านี้ออกจากผลการค้นหาของ Google ได้อย่างรวดเร็วยิ่งขึ้นโดยใช้คุณลักษณะลบ URL ใน Search Console นี่เป็นขั้นตอนทางเลือกทั้งหมด หากคุณเพียงแค่ลบหน้าเว็บแล้วกำหนดค่าเซิร์ฟเวอร์ของคุณให้ส่งคืนรหัสสถานะ 404 หน้าเว็บนั้นจะหลุดออกจากดัชนีของ Google ตามเวลา

แต่พวกเขายังเข้าใจด้วยว่านี่เป็นไปไม่ได้ในบางกรณี:

การตัดสินใจที่จะใช้การลบ URL นั้นขึ้นอยู่กับจำนวนหน้าใหม่ที่ไม่ต้องการสร้างขึ้น (หน้ามากเกินไปอาจยุ่งยากในการลบ URL) รวมทั้งความเสียหายที่อาจเกิดขึ้นกับหน้าเหล่านี้อาจทำให้ผู้ใช้ เพื่อป้องกันไม่ให้เพจที่ถูกส่งผ่านการลบ URL ปรากฏในผลการค้นหาตรวจสอบให้แน่ใจว่าหน้านั้นได้รับการกำหนดค่าให้ส่งคืน 404 ไม่พบไฟล์ที่ไม่ตอบสนองสำหรับ URL ที่ไม่ต้องการ / ถูกลบออก

ดังนั้นในขณะที่คุณสามารถบล็อกหน้าเหล่านี้ใน robots.txt - คุณไม่ได้ดำเนินการตามขั้นตอนการแก้ไขตามที่อธิบายไว้โดย google


4
User-Agent: *  
Disallow: /+

ควรทำสิ่งที่คุณต้องการ มันจะบอกหุ่นยนต์ที่จะได้ขอ URL +ทั้งหมดที่เริ่มต้นด้วย


2

หากคุณต้องการใช้ robots.txt จริงๆนี่อาจเป็นคำตอบที่ง่ายสำหรับคำถามของคุณ ฉันได้รวมลิงค์ไปยังที่ที่คุณสามารถอ่านข้อกำหนดของ robots.txt ได้

User-agent: *
Disallow: /+

อ่านรายละเอียดเกี่ยวกับ robots.txt

แต่อีกทางเลือกหนึ่งอาจจะใช้. htaccess เพื่อสร้างกฎการเขียนใหม่ (ถ้าคุณใช้ Apache ฯลฯ ) เพื่อตรวจจับพวกเขาและอาจบอก Google ให้ทราบถึงโค้ด HTTP ที่ส่งคืนได้ดีขึ้นหรือเปลี่ยนเส้นทางการเข้าชมไปยังหน้าอื่น ๆ


2
ไม่จำเป็นต้องใช้*(เครื่องหมายดอกจัน) ที่ส่วนท้ายของเส้นทาง URL ควรลบออกเพื่อความเข้ากันได้กับแมงมุมที่ยิ่งใหญ่ที่สุด robots.txtเป็นการจับคู่คำนำหน้าอยู่แล้วดังนั้น/+*เช่นเดียวกับ/+บอตที่รองรับไวด์การ์ดและสำหรับบอทที่ไม่รองรับไวลด์การ์ดนั้น/+*จะไม่ตรงกันเลย
MrWhite

คุณถูกต้องฉันเพิ่งเขียนสิ่งนั้นตามคำถามของเขาเกี่ยวกับ Googlebot ฉันแก้ไขมันเพื่อสะท้อนความเข้ากันได้ดีขึ้นกับหลาย ๆ บอท
davidbl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.