Google ยังคงรวบรวมข้อมูลและจัดทำดัชนีหน้าทดสอบเก่า ๆ ของฉันซึ่งตอนนี้ไม่พบ 404


19

ฉันได้ตั้งค่าเว็บไซต์ของฉันด้วยหน้าตัวอย่างและข้อมูล (lorem ipsum ฯลฯ ) และ Google ได้รวบรวมข้อมูลหน้าเหล่านี้แล้ว ฉันลบหน้าเหล่านี้ทั้งหมดและเพิ่มเนื้อหาจริง แต่ในเครื่องมือของผู้ดูแลเว็บฉันยังคงได้รับข้อผิดพลาด 404 ข้อที่ Google พยายามรวบรวมข้อมูลหน้าเหล่านี้ ฉันตั้งให้ "ทำเครื่องหมายว่าแก้ไขแล้ว" แต่บางหน้ายังคงกลับมาเป็น 404

นอกจากนี้ฉันยังมีหน้าตัวอย่างจำนวนมากที่ยังคงอยู่ในรายการเมื่อฉันค้นหาเว็บไซต์ของฉันบน Google วิธีการลบออก ฉันคิดว่าหน้าเว็บที่ไม่เกี่ยวข้องเหล่านี้ส่งผลต่อการให้คะแนนของฉัน

ฉันต้องการลบหน้าเหล่านี้ทั้งหมดและเริ่มทำให้เว็บไซต์ของฉันถูกทำดัชนีเป็นหน้าใหม่ แต่ฉันอ่านมันเป็นไปไม่ได้เหรอ? (ฉันส่งแผนผังไซต์และใช้ "เรียกเป็น Google")

คำตอบ:


17

ตกลง. สิ่งแรกก่อน อย่าทำเครื่องหมาย 404 กับการคง คุณกำลังยืดเยื้อปัญหา Google จะพยายามดึงข้อมูลหน้าเว็บที่ส่งคืน 404 หลายครั้งก่อนที่จะยอมแพ้ เพราะนี่คือข้อผิดพลาด 404 บ่งชี้สถานการณ์ชั่วคราวที่ข้อผิดพลาด 410 กล่าวว่าหน้าจะหายไป ดังนั้นทุกครั้งที่คุณทำเครื่องหมาย 404 ว่าได้รับการแก้ไขแล้วคุณจะได้รับแจ้งให้ Google ลองอีกครั้งซึ่งจะเป็นการเริ่มต้นกระบวนการกำจัดอีกครั้ง

เพียงแค่ปล่อยให้หน้าเหล่านี้ 404 สักครู่แล้ว Google จะหยุดค้นหาและจะวางหน้าเว็บจากดัชนี ต้องใช้เวลา แต่มีข้อผิดพลาด 410 นี่เป็นวิธีที่ง่ายที่สุด ข้อผิดพลาด 410 จะทำให้กระบวนการเร็วขึ้น แต่มันยากที่จะนำเสนอข้อผิดพลาด 410 และ 404 เป็นค่าเริ่มต้นทำให้เป็นวิธีการแก้ปัญหาที่ง่ายขึ้นและเป็นธรรมชาติ

หน้าเว็บที่ถูกลบของคุณจะหายไปในเวลาประมาณ 30-60 วันหากคุณสามารถรอได้ ขึ้นอยู่กับความถี่ที่ Google เข้าชมหน้าเว็บของคุณ อาจใช้เวลานานขึ้น แต่เมื่อพบ 404 แล้ว Google ชอบที่จะตรวจสอบเว็บไซต์เป็นอันดับแรกจากนั้นขึ้นอยู่กับว่ามี 404 แห่งในจำนวนเท่าใดที่อาจทำให้ไซต์ของคุณก้าวร้าวมากขึ้น

การใช้แผนผังไซต์จริง ๆ แล้วไม่ได้แก้ไขปัญหาใด ๆ กับดัชนี มันทำให้ชีวิตง่ายขึ้นสำหรับเครื่องมือค้นหา ไม่เคยถูกนำมาใช้เป็นรายการทั้งหมดของทุกเว็บไซต์ที่มี หากเครื่องมือค้นหาอ่านแผนผังไซต์และยังพบหน้าเว็บที่ไม่ได้ระบุไว้ในแผนผังเว็บไซต์นั้นจะยังคงจัดทำดัชนีหน้าเว็บเหล่านั้นต่อไป

ทางเลือกหนึ่งถ้าเหมาะสมก็คือแสดงรายการหน้าเหล่านี้ในไฟล์ robots.txt ของคุณ หากมีไม่มากเกินไป (หมายถึงสิ่งที่คุณสามารถทำได้และไฟล์ robots.txt ของคุณจะไม่ยาวเกินไป) นั่นจะเป็นวิธีแก้ปัญหาที่เร็วกว่า มิฉะนั้นฉันก็จะรอและปล่อยให้ข้อผิดพลาด 404 หมดอายุด้วยตัวเอง

หนึ่งคำสุดท้าย คุณจะโอเค จริงๆ. มันจะทำงานได้ดีสำหรับคุณถ้าคุณอดทน


1
การเพิ่มหน้า 404 ลงใน robots.txt ฟังดูเหมือนเป็นการปฏิบัติที่ไม่ดี มันจะสับสนกับซอฟต์แวร์รวบรวมข้อมูลและใช้เวลาทำความสะอาดที่ไม่จำเป็นอย่างสมบูรณ์
Dorus

@Dorus ไม่เลย หนึ่งไม่มีอะไรเกี่ยวข้องกับคนอื่น การเพิ่มหน้าใด ๆ ไปยังไฟล์ robots.txt จะลบหน้าออกจากดัชนีอย่างรวดเร็ว เช่นเดียวกับเครื่องมือค้นหาจะไม่พยายามและการเข้าถึงไฟล์และดังนั้นจึงไม่มี 404
closetnoc

1
อย่างที่คุณพูดหากคุณเพิ่มลงใน robots.txt เครื่องมือค้นหาจะไม่พยายามเข้าถึงหน้าดังกล่าว แต่หน้านั้นจะยังคงอยู่ ดังนั้นหากบางวันคุณลบมันออกจากหุ่นยนต์การทำดัชนีจะกลับมา เป็นวิธีปฏิบัติที่ดีกว่าเพื่อให้ 404 หรือ 410 ทำงานได้

@closetnoc คุณหมายถึงit is harder to present a 410 errorอะไร?
Evgeniy

@Evgeniy ข้อผิดพลาด 404 คือสิ่งที่กำหนดโดยค่าเริ่มต้น (Apache อย่างน้อยและ IIS ที่เก่ากว่า) ข้อผิดพลาด 410 จะต้องมีเจตนาและต้องการงานบางอย่างเพื่อให้เกิดขึ้น ในทางเทคนิคแล้วมันไม่ได้เป็นงานที่ยาก แต่มันต้องใช้ความเชี่ยวชาญ แต่ก็ไม่มากนัก ไชโย !!
Closnoc

8

เมื่อคุณเผยแพร่เพจ Google จะไม่มีวันลืมมัน ฉันมีเว็บไซต์ที่ฉันลบหน้า 15 ปีที่แล้ว Googlebot ยังคงกลับมาและตรวจสอบหน้าเหล่านั้นเป็นครั้งคราว

เพื่อป้องกันไม่ให้หน้าเว็บแสดงในเครื่องมือค้นหาข้อผิดพลาด 404 ของคุณจะทำงาน อาจใช้เวลา Google หนึ่งวันในการลบหน้าออกจากดัชนีหลังจากที่ Googlebot รวบรวมข้อมูลหน้าถัดไป หากคุณต้องการลบออกเร็วกว่าให้ส่งคืนสถานะ "410 Gone" แทน Google ลบ 410 หน้าทันทีหลังจากรวบรวมข้อมูลแทนที่จะรอหนึ่งวัน Google จะไม่ลบหน้า 404 ทันทีเพื่อป้องกันไม่ให้เว็บมาสเตอร์ถ่ายภาพตัวเองตามที่อธิบายโดย Matt Cutts :

ดังนั้นด้วย 404s พร้อมกับฉันคิดว่า 401 และอาจเป็น 403 ถ้าเราเห็นหน้าหนึ่งและเราได้ 404 เราจะปกป้องหน้านั้นเป็นเวลา 24 ชั่วโมงในระบบรวบรวมข้อมูลดังนั้นเราจึงรออยู่และเราบอกว่านั่นอาจเป็น ชั่วคราว 404 บางทีมันไม่ได้ตั้งใจจะเป็นหน้าไม่พบ

อีกวิธีที่คุณสามารถพิจารณาได้คือการเปลี่ยนเส้นทาง 301 การเปลี่ยนเส้นทางหน้าเก่าไปยังการแทนที่จะป้องกันไม่ให้ปรากฏเป็นข้อผิดพลาดใน Google Webmaster Tools สิ่งนี้เป็นไปได้ก็ต่อเมื่อมีหน้าใหม่บางหน้าสำหรับหน้าเก่าแต่ละหน้า การเปลี่ยนเส้นทางหน้าทดสอบทั้งหมดไปยังหน้าแรกของคุณจะไม่ช่วยได้เนื่องจาก Google ถือว่าการเปลี่ยนเส้นทางไปยังหน้าแรกเป็นข้อผิดพลาด "soft 404" ที่จะยังคงปรากฏในรายงานนั้น

การมีข้อผิดพลาด 404 ในเครื่องมือของผู้ดูแลเว็บจะไม่ทำให้คุณเจ็บ การมีข้อผิดพลาด 404 ข้อในเว็บไซต์ของคุณอาจช่วยคุณได้เพราะจะแสดง Googlebot ว่าไซต์ของคุณได้รับการกำหนดค่าอย่างถูกต้อง นี่คือสิ่งที่ John Mueller ของ Google (ที่ทำงานกับเครื่องมือของผู้ดูแลเว็บและแผนผังไซต์) ได้กล่าวถึงข้อผิดพลาด 404 ข้อที่ปรากฏในเครื่องมือของผู้ดูแลเว็บ :

ช่วยด้วย! เว็บไซต์ของฉันมีข้อผิดพลาด 939 CRAWL !! 1

ฉันเห็นคำถามแบบนี้หลายครั้งต่อสัปดาห์ คุณไม่ได้อยู่คนเดียว - เว็บไซต์จำนวนมากมีข้อผิดพลาดในการรวบรวมข้อมูล

  1. ข้อผิดพลาด 404 ของ URL ที่ไม่ถูกต้องจะไม่เป็นอันตรายต่อการจัดทำดัชนีหรือการจัดอันดับเว็บไซต์ของคุณแต่อย่างใด ไม่สำคัญว่าจะมี 100 หรือ 10 ล้านพวกเขาจะไม่เป็นอันตรายต่อการจัดอันดับเว็บไซต์ของคุณ http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. ในบางกรณีข้อผิดพลาดในการรวบรวมข้อมูลอาจมาจากปัญหาโครงสร้างที่ถูกกฎหมายภายในเว็บไซต์หรือ CMS ของคุณ คุณบอกได้อย่างไร ตรวจสอบที่มาของข้อผิดพลาดในการรวบรวมข้อมูลอีกครั้ง หากมีลิงค์เสียในเว็บไซต์ของคุณใน HTML คงที่ของหน้าของคุณนั่นก็คุ้มค่าที่จะแก้ไขเสมอ (ขอบคุณ+ Martino Mosna )
  3. สิ่งที่เกี่ยวกับ URL ขี้ขลาดที่“ แตกชัดเจน?” เมื่ออัลกอริทึมของเราชอบเว็บไซต์ของคุณพวกเขาอาจพยายามค้นหาเนื้อหาที่ยอดเยี่ยมมากขึ้นตัวอย่างเช่นโดยพยายามค้นหา URL ใหม่ใน JavaScript หากเราลองใช้“ URL” เหล่านั้นและค้นหา 404 นั่นเป็นสิ่งที่ยอดเยี่ยมและคาดหวัง เราแค่ไม่อยากพลาดทุกสิ่งสำคัญ (แทรก meme ของ Googlebot ที่แนบมามากเกินไปที่นี่) http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. คุณไม่จำเป็นต้องแก้ไขข้อผิดพลาดในการรวบรวมข้อมูลในเครื่องมือของผู้ดูแลเว็บ คุณลักษณะ "ทำเครื่องหมายว่าตายตัว" มีไว้เพื่อช่วยคุณเท่านั้นหากคุณต้องการติดตามความคืบหน้าของคุณที่นั่น มันไม่เปลี่ยนแปลงอะไรในการค้นหาบนเว็บดังนั้นอย่าลังเลที่จะเพิกเฉยหากคุณไม่ต้องการ http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. เราแสดงรายการข้อผิดพลาดในการรวบรวมข้อมูลในเครื่องมือของผู้ดูแลเว็บตามลำดับความสำคัญซึ่งขึ้นอยู่กับปัจจัยหลายประการ หากหน้าแรกของข้อผิดพลาดในการรวบรวมข้อมูลไม่ชัดเจนอย่างชัดเจนคุณอาจไม่พบข้อผิดพลาดการรวบรวมข้อมูลที่สำคัญในหน้าต่อไป http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. ไม่จำเป็นต้อง“ แก้ไข” ข้อผิดพลาดในการรวบรวมข้อมูลในเว็บไซต์ของคุณ การค้นหา 404 เป็นเรื่องปกติและคาดว่าจะมีเว็บไซต์ที่มีการกำหนดค่าที่ดี หากคุณมี URL ใหม่ที่เทียบเท่าการเปลี่ยนเส้นทางไปยัง URL นั้นเป็นวิธีปฏิบัติที่ดี มิฉะนั้นคุณไม่ควรสร้างเนื้อหาปลอมคุณไม่ควรเปลี่ยนเส้นทางไปยังหน้าแรกของคุณคุณไม่ควร robots.txt ไม่อนุญาต URL เหล่านี้ - สิ่งเหล่านี้ทำให้เรายากที่จะรับรู้โครงสร้างของเว็บไซต์และดำเนินการอย่างถูกต้อง เราเรียกข้อผิดพลาด“ soft 404” เหล่านี้ http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. แน่นอน - หากข้อผิดพลาดในการรวบรวมข้อมูลแสดงขึ้นสำหรับ URL ที่คุณสนใจบางที URL ในไฟล์ Sitemap ของคุณนั่นคือสิ่งที่คุณควรดำเนินการทันที หาก Googlebot ไม่สามารถรวบรวมข้อมูล URL ที่สำคัญของคุณพวกเขาอาจหลุดจากผลการค้นหาของเราและผู้ใช้อาจไม่สามารถเข้าถึงได้

1
นั่นไม่ใช่ประสบการณ์ของฉันเลย Google ต้องการดัชนีใหม่และลบหน้าเว็บอย่างรวดเร็ว สิ่งที่ฉันเห็นว่าดูเหมือนกับสิ่งที่คุณอธิบายว่าไซต์อื่น ๆ ที่ใช้ Google API ในอดีตนั้นไม่ได้รีเฟรชข้อมูลและจะอ้างอิงงานเก่าของคุณ เหล่านี้มักจะเป็นเว็บไซต์สแปม / ขยะและการอ้างอิงเหล่านี้สามารถปรากฏ / ยังคง / หายไป / ปรากฏขึ้นอีกครั้ง เหตุผลหลักที่ฉันเห็นนี้เป็นเพราะ Google API เคยเป็นค่อนข้างสำส่อนและไม่ได้อีกต่อไปดังนั้นข้อมูลสแปมเก่ากว่ามากเพราะข้อมูลใหม่ยากที่จะมาโดยเฉพาะอย่างยิ่งถ้าคุณเคยสแปมในอดีต
Closnoc

1
Googlebot มีโหมดการรวบรวมข้อมูลที่ฉันเรียกว่า "เราพบกล่อง URL ในห้องใต้ดิน" ในโหมดการรวบรวมข้อมูลนี้มันอาจรวบรวมข้อมูลหลายพัน URL จากเว็บไซต์ของคุณติดต่อกันซึ่งคุณไม่เคยใช้มานานหลายปี URL มักจะไม่มีลิงค์ขาเข้าแม้จะมาจากไซต์มีดโกน มีการรวบรวมข้อมูลตามลำดับความยาว URL ที่สั้นกว่าจะถูกรวบรวมข้อมูลก่อน
Stephen Ostermiller

นั่นอาจเป็นจริง Google เป็นข้อมูลขนาดใหญ่อย่างชัดเจน ฐานข้อมูลขนาดใหญ่มีสัญญาณรบกวน ที่หลีกเลี่ยงไม่ได้ นั่นอาจเป็นสิ่งที่คุณกำลังประสบอยู่ เป็นไปได้ว่ามีการปรับยอดฐานข้อมูลต่าง ๆ นั่นทำให้รู้สึก แต่ฉันขอเตือนคุณด้วยว่าเว็บไซต์ขยะสามารถปรากฏได้เพียง 2 ชั่วโมงด้วยลิงก์เก่าและการอ้างอิงเก่า ฉันเห็นสิ่งนี้ทุกวัน พวกเขาอยู่ในรัสเซียและโปแลนด์เป็นหลัก ไซต์เหล่านี้ใช้สำหรับเครื่องมือค้นหาในท้องถิ่น แต่ส่งผลต่อปริมาณการใช้งานไปยังเว็บไซต์ใด ๆ และสามารถรับโดย Google ฉันได้รับ 12 สิ่งเหล่านี้ในฐานข้อมูลของฉันทุกวัน โดยทั่วไปมีเพียง 1 ใน 12 เว็บไซต์ที่ยังคงอยู่ในช่วงเวลาใด ๆ
Closnoc

ข้อผิดพลาด 939 คืออะไร
Greg Nickoloff

939 คือจำนวนข้อผิดพลาดไม่ใช่ประเภทของข้อผิดพลาด
Stephen Ostermiller

5

Google มีแนวโน้มที่จะพยายามรวบรวมข้อมูลหน้าเหล่านี้ต่อไปเป็นเวลานาน ผู้ดูแลเว็บทำผิดพลาดหรือไซต์ไม่สามารถใช้งานได้ไม่ว่าด้วยเหตุผลใดดังนั้น Google จะไม่ลบเนื้อหาที่สัญญาณแรกของ 404

หรือคุณสามารถให้บริการ 410 Gone แทน นี่เป็นสัญญาณที่แข็งแกร่งกว่า (เช่นพิจารณาโดยเจตนา) ว่าหน้าเว็บนั้น "หายไป" อย่างแท้จริงและไม่กลับมาอีก นี่อาจเป็นการแจ้งให้ Google ลบหน้าดังกล่าวออกจาก SERP ในไม่ช้า

ฉันตั้งให้ "ทำเครื่องหมายว่าแก้ไขแล้ว" แต่บางหน้ายังคงกลับมาเป็น 404

มันจะ "แก้ไข" เท่านั้นหากคุณนำหน้ากลับมา หากคุณทำเครื่องหมายว่าแก้ไขแล้วและไม่มีหน้านั้นข้อผิดพลาดในการรวบรวมข้อมูลก็จะเกิดขึ้นอีก หากไม่มีหน้าอยู่ให้ทิ้งไว้ตามที่เป็นอยู่

ของแท้ 404 ไม่เป็นอันตรายต่อการจัดอันดับการค้นหาของคุณ รายงาน 404 ใน GWT นั้นมีวัตถุประสงค์เพื่อประโยชน์ของคุณเป็นหลักดังนั้นคุณจึงสามารถเห็นได้ว่าสิ่งใดผิดพลาด ... เมื่อไม่พบหน้าเว็บที่ควรพบ!

หน้าเว็บที่ไม่เกี่ยวข้องเหล่านี้ใน SERP อาจสร้างความรำคาญเล็กน้อยให้กับผู้ใช้ของคุณอย่างไรก็ตามพวกเขากำลังค้นหาสิ่งใดเพื่อค้นหาlorem ipsum ของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.