จะลบ URL หลายพันรายการออกจากแคชของ Google ได้อย่างไร


13

Google ได้แคช PDF จำนวน 1,000 ไฟล์จากเว็บไซต์ของฉันซึ่งไม่ควรเป็นสาธารณะ ฉันได้อัปเดตส่วนหัวแล้ว แต่จำเป็นต้องลบแคชมุมมองด่วนที่มีอยู่

เครื่องมือผู้ดูแลเว็บของ Google ช่วยให้ฉันสามารถลบทีละคน - นี้ชัดเจนว่าในทางปฏิบัติจะไม่ได้รับปริมาณของไฟล์ที่จะลบ

ไม่มีใครรู้ว่าฉันสามารถลบไฟล์ PDF จากแคช Google ได้อย่างไร เป็นการดีที่ฉันต้องการวิธีลบทุกอย่างที่ตรงกับ "site: mysite.com * .pdf"


3
ค้นหา Google อย่างรวดเร็วแสดงให้เห็นว่ามันเป็นไปไม่ได้ที่จะลบชุดโดยใช้ Google API คุณต้องซ่อมแซมกันสคริปต์ของคุณเองที่เชื่อมโยงเอาหนึ่งโดยหนึ่ง

คำตอบ:


9

ดูเหมือนว่าคุณได้คิดแล้วว่าจะขอให้ลบ URL เดียวซึ่งเห็นได้ชัดจากคำถามที่นี่ ขั้นตอนที่สองในกระบวนการนั้นยังช่วยให้คุณสามารถขอลบไดเรกทอรีทั้งหมดได้หาก URL ไฟล์นั้นสามารถคาดเดาได้ในลักษณะเฉพาะนั้น (หากคุณมีไฟล์ PDF หลายพันไฟล์ฉันหวังว่าไฟล์เหล่านั้นจะมีการจัดเรียงอย่างน้อย) หากไม่ใช่คุณน่าเสียดาย


2

ฉันเพิ่งแฮ็คที่เพิ่มหน้าปลอมหลายพันหน้าในเว็บไซต์

ฉันส่งแผนผังไซต์ที่ถูกต้องไปยัง Google Search Console (ก่อนหน้านี้เรียกว่าเครื่องมือของผู้ดูแลเว็บ) และเปลี่ยนลิงก์ทั้งหมดเป็น 410 แต่ Google ยังคงมีดัชนีส่วนใหญ่อยู่

ฉันใช้WebMaster Tools - ลบ URL จำนวนมาก Chrome Extensionเพื่อส่ง URL เพื่อนำออกโดยอัตโนมัติ โดยพื้นฐานแล้วมันเป็นสคริปต์ที่รับรายการ URL จากนั้นส่งให้คุณทีละรายการ อาจใช้เวลาหลายชั่วโมงในการส่งทั้งหมด แต่อย่างน้อยคุณก็ไม่ต้องทำเอง ต่อไปนี้เป็นบทความเกี่ยวกับวิธีการใช้งาน

คุณสามารถรับรายการ URL ที่ google กำลังจัดทำดัชนีโดยดาวน์โหลดข้อมูลโดยตรงจาก Search Console ไปที่สถานะ> ดัชนีครอบคลุมและเลือกผลลัพธ์ที่ถูกต้องจากนั้นเลื่อนลง คุณจะเห็นว่า Google ได้จัดทำดัชนี URL จำนวนมากที่ไม่ได้อยู่ในแผนผังไซต์ของคุณ คุณสามารถดาวน์โหลดผลลัพธ์ 1,000 รายการแรก เห็นได้ชัดว่ามีวิธีการวงเวียนเพื่อให้ได้ทั้งหมดไม่ใช่แค่พันคนแรก แต่เกี่ยวข้องกับการเรียก API จาก excel ฉันแค่รอไม่กี่วันระหว่างแต่ละพันขณะที่พวกเขาหลุดออกจากดัชนีอย่างช้าๆ

Google Snapshot ครอบคลุมดัชนี

อีกเส้นทางคือให้ปลั๊กอิน WP สร้างแผนผังไซต์จากนั้นกรองไฟล์ PDF หรือสิ่งที่คุณกำหนดเป้าหมาย คุณอาจต้องคัดลอก / วาง / ลบคู่มือเล็กน้อยที่นี่ เพื่อความปลอดภัยฉันค่อยๆเลื่อนดูรายการสแปม URL ประมาณ 2,700 รายการและลบ URL ที่ถูกต้อง ใช้เวลาประมาณ 20 นาทีเท่านั้น

หากคุณไม่ได้พยายามทำสิ่งใดอย่างถาวรเช่นสแปมและพยายามที่จะทำให้งงงวยทรัพยากรระดับพรีเมียมคุณควรใช้วิธีการอื่นเพื่อป้องกันการทำดัชนีทรัพยากรเหล่านั้นเช่นไฟล์โรบอต แต่ถ้าปรากฎว่า Google ไม่ได้ฟังหรือคุณทำลูกบอลหายไปอย่างน้อยตอนนี้คุณสามารถแก้ไขปัญหาและนำพวกเขาออกจากดัชนีได้ในเวลาเพียงไม่กี่วัน

ในกรณีเฉพาะของฉันฉันสงสัยว่าทำไม Google ไม่มีปุ่มไทม์แมชชีนหรือเลิกทำหรือรีเซ็ต แนวคิดก็คือฉันสามารถบอก Google ว่าไซต์ถูกแฮ็กเมื่อสองสามวันก่อน แต่เราได้ทำการซ่อมแซมดังนั้นจึงเลิกทำการ x จำนวนวันสุดท้ายของการรวบรวมข้อมูลและการจัดทำดัชนี แต่นั่นจะง่ายเกินไป


1

หากไฟล์ "ไม่ควรเป็นสาธารณะ" จากนั้นไฟล์เหล่านั้นควรอยู่ในอินเทอร์เน็ตสาธารณะ คุณสามารถลบไฟล์ออกจากรายชื่อ Google (ผ่านทาง robots.txt และวิธีการอื่น ๆ ) แต่หากไฟล์ยังคงอยู่ที่นั่นทุกคนจะยังคงสามารถดาวน์โหลดได้

คุณควรเก็บไว้เบื้องหลังการตรวจสอบบางประเภท ตัวอย่างเช่นย้ายไฟล์ออกจากไดเรกทอรีเว็บสาธารณะและให้บริการจากสคริปต์ที่ตรวจสอบว่าผู้ใช้ถูกต้องก่อน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.