เหตุใด Google จึงหยุดจัดทำดัชนีหน้าเว็บจาก sitemap.xml ของเรา


18

เราเห็นบางหน้าเว็บที่มีอยู่ในของเราsitemap.xmlแต่หายไปอย่างลึกลับจากดัชนีการค้นหาสาธารณะของ Google

คุณไม่สามารถดาวน์โหลด/superuser//sitemap.xml - เราป้องกันไฟล์นี้เนื่องจากมีปัญหาในอดีต - แต่ googlebot สามารถ เราได้ตรวจสอบผ่าน Google Webmaster Tools ว่าsitemap.xmlไฟล์ถูกดึงลงมาวันนี้และได้คะแนน OK โดยไม่มีข้อผิดพลาด (เครื่องหมายถูกสีเขียว)

ข้อความแสดงแทน

sitemap.xmlมีรายชื่อของสุดท้าย 50,000 คำถามบนเว็บไซต์ของเราที่ถูกถาม ตัวอย่างเช่นคำถามนี้ ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... มีอยู่ในsitemap.xml...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

การค้นหา"วิธีดูจุดสิ้นสุดของลิงก์สัญลักษณ์แบบยาว"ให้ผลลัพธ์เดียวกับ questionhub.com ซึ่งเป็นการคัดลอกข้อมูลของเรา (ปัญหาที่แตกต่างกันทั้งหมด)

คุณสามารถเพิ่มจำนวนการนับคำถามและทำการค้นหาที่แน่นอนสำหรับชื่อคำถามและคุณจะเห็นรูปแบบนี้ยังคงมีอยู่

URL เหล่านี้อยู่ใน sitemap.xml แต่ไม่ปรากฏในดัชนีของ Google - แต่ยังปรากฏในไซต์ที่ขูดข้อมูลครีเอทีฟคอมมอนส์ของเราด้วย ทำไมถึงเป็นเช่นนั้น?


5
คุณสามารถสอบถามได้ที่ฟอรัมส่วนกลางของเว็บมาสเตอร์ google google.com/support/forum/p/Webmasters?hl=th
Alex Black

มีบางอย่างผิดปกติ คำถามนี้มีการจัดทำดัชนีใน Google แล้ว แต่คำถามที่เชื่อมโยงกับ superuser STILL ไม่ปรากฏในดัชนี
Michael Pryor

เจฟฟ์อาจคิดถึงแค่การถาม Matt Cutts ฉันเห็นพวกเขาคุยกันสองสามครั้งบน Twitter เขามักจะยินดีช่วย
Virtuosi Media

3
FWIW ขณะนี้เราพบปัญหาบางอย่างเกี่ยวกับการจัดทำดัชนีเนื้อหาใหม่ในบางเว็บไซต์ มีกระทู้ในฟอรัมความช่วยเหลือของเราที่google.com/support/forum/p/Webmasters/ ......เกี่ยวกับเรื่องนี้ URL ที่คุณกล่าวถึงดูเหมือนจะได้รับผลกระทบ ฉันคิดว่าสิ่งนี้จะได้รับการแก้ไขในไม่ช้า แต่ไม่มีกรอบเวลาแก้ไขให้ใช้งาน ขอบคุณสำหรับความอดทนของคุณ.
John Mueller

1
ดูเหมือนว่าตอนนี้จะได้รับการแก้ไขแล้ว :-) ฉันลองคำถามใหม่สองสามข้อจากเว็บไซต์และพวกเขาทั้งหมดถูกจัดทำดัชนี Woot!
John Mueller

คำตอบ:


10

ดูเหมือนว่า Google จะมีปัญหาในการรวบรวมข้อมูลทางเทคนิคบางสัปดาห์นี้เสียงที่น่าทึ่งเหมือนสิ่งที่เรากำลังประสบอยู่:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

ดูเหมือนว่าจะไม่มีใครรอดพ้นจากปัญหาการจัดทำดัชนีของ Google ที่มีเจ้าของเว็บไซต์จำนวนมากสับสน บล็อกและเว็บไซต์ทั้งเล็กและใหญ่ไม่ได้รับการจัดทำดัชนีอย่างรวดเร็วตามปกติ - หากมีการจัดทำดัชนีเลย

...

John จาก Google ตอบกระทู้ในฟอรัม Webmaster ว่า:

เพียงเพื่อให้ชัดเจนประเด็นจากหัวข้อนี้ซึ่งฉันได้ตรวจสอบในรายละเอียดไม่ได้เกิดจากการเปลี่ยนแปลงในนโยบายของเราหรือการเปลี่ยนแปลงในอัลกอริทึมของเรา; ปัญหาเหล่านี้เกิดจากปัญหาทางเทคนิคทางด้านของเราซึ่งจะได้รับการแก้ไขอย่างชัดเจนโดยเร็วที่สุด (อาจใช้เวลาสองสามวันก่อนที่เว็บไซต์ทั้งหมดจะปรากฏ)


7

Google ไม่ได้เสนอหรือรับประกันว่าหน้าเว็บในแผนผังไซต์จะได้รับการจัดทำดัชนี

ประสบการณ์ของฉันคือการที่หน้าจะต้องมีการเชื่อมโยงไปยัง (จากหน้าของผู้มีอำนาจบางอย่าง) เพื่อแสดง หน้า / คำถามนั้นเชื่อมโยงโดยตรง / โดยอ้อมจากหน้าเว็บที่มีสิทธิ์บางอย่างหรือไม่?

ตัวอย่างเช่นหากหน้าแรกของ superuser.com (ซึ่งมีลิงค์ในตัวมากมาย) เชื่อมโยงโดยตรงกับคำถามนี้หรือเชื่อมโยงไปยังทางอ้อมผ่านทางหน้าอื่น ๆ จำนวนหนึ่งคุณอาจคาดหวังว่าจะได้รับการจัดทำดัชนี

จาก google:

Google ไม่รับประกันว่าเราจะรวบรวมข้อมูลหรือจัดทำดัชนี URL ทั้งหมดของคุณ อย่างไรก็ตามเราใช้ข้อมูลใน Sitemap ของคุณเพื่อเรียนรู้เกี่ยวกับโครงสร้างเว็บไซต์ของคุณซึ่งจะช่วยให้เราสามารถปรับปรุงตารางโปรแกรมรวบรวมข้อมูลของเราและทำการรวบรวมข้อมูลเว็บไซต์ของคุณได้ดีขึ้นในอนาคต ในกรณีส่วนใหญ่เว็บมาสเตอร์จะได้รับประโยชน์จากการส่ง Sitemap และคุณจะไม่ถูกลงโทษ

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156184


4
Superuser ควรมีลิงค์เพียงพอและ PR เพื่อให้ได้รับการจัดทำดัชนีหน้าเว็บเหล่านั้นด้วยหรือไม่มีแผนผังไซต์ และหน้าย่อยได้รับการจดทะเบียนตลอดเวลา ในความเป็นจริงพวกเขาทำขึ้นส่วนใหญ่ของดัชนี ฉันสงสัยว่าอย่างอื่นเป็นผู้กระทำผิด
John Conde

ตกลงไซต์มี PR และอินลิงค์มากมาย แต่มีโอกาสที่หน้าของคำถามจะไม่มีลิงก์หรือไม่ หาก superuser.com (โดยบังเอิญ) ไม่ได้ลิงก์ไปยังหน้าเว็บนั่นบอกอะไร google มันบอกว่าหน้าไม่สำคัญ
Alex Black

2
หน้าเชื่อมโยงจากหน้าแรกอย่างแน่นอนและยังคงมีการเชื่อมโยงจากหน้าอื่น ๆ ไซต์ SE มีการเชื่อมโยงข้ามกันมาก
Kevin Montrose

1
เมื่อถึงจุดหนึ่งเมื่อวานหนึ่งในคำถามยอดฮิตของฉันสำหรับคำถามทดสอบคือหน้าแรกของ superuser.com - โดยมี URL เป้าหมายปรากฏอยู่แม้ในแคช Google! และยังคำถามตัวเองไม่ได้จัดทำดัชนี แปลกมาก.
Jeff Atwood

2
อย่างแน่นอน - คลิกที่แท็บ HOT ในหน้าแรกหรือแท็บรายสัปดาห์หรือรายเดือน ที่นั่น ..
Jeff Atwood

3

ฉันคิดว่า google อาจจะมีช่วงเวลาที่ยากลำบากในการทำดัชนีหน้าเว็บของคุณ 50.000 เป็นจำนวนมาก ดังนั้นข้อเสนอแนะของฉันจะทำให้แผนผังไซต์ของคุณแตกเป็นชิ้น ๆ

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

หากคุณพังคุณจะมีโชคที่ดีกว่าในการจัดทำดัชนี URL 50,000 รายการ

Sitemaps.org คำอธิบายของปัญหา

คุณสามารถให้ไฟล์ Sitemap ได้หลายไฟล์ แต่ไฟล์ Sitemap แต่ละไฟล์ที่คุณระบุจะต้องมี URL ไม่เกิน 50,000 รายการและต้องไม่ใหญ่กว่า 10MB (10,485,760 ไบต์) หากคุณต้องการคุณสามารถบีบอัดไฟล์ Sitemap โดยใช้ gzip เพื่อลดความต้องการแบนด์วิดท์ของคุณ อย่างไรก็ตามไฟล์ sitemap ที่ไม่มีการบีบอัดจะต้องมีขนาดไม่เกิน 10MB หากคุณต้องการแสดง URL มากกว่า 50,000 รายการคุณต้องสร้างไฟล์ Sitemap หลายไฟล์

หากคุณมี Sitemap หลายรายการคุณควรแสดงรายการไฟล์ Sitemap แต่ละไฟล์ในไฟล์ดัชนี Sitemap ไฟล์ดัชนีแผนผังไซต์ไม่สามารถแสดงรายการ Sitemap ได้มากกว่า 50,000 รายการและต้องมีขนาดไม่เกิน 10MB (10,485,760 ไบต์) และสามารถบีบอัดได้ คุณสามารถมีไฟล์ดัชนี Sitemap มากกว่าหนึ่งไฟล์ รูปแบบ XML ของไฟล์ดัชนี Sitemap นั้นคล้ายคลึงกับรูปแบบ XML ของไฟล์ Sitemap มาก

http://sitemaps.org/protocol.php


2
Sitemap ที่มี 50,000 หน้านั้นเป็นเรื่องธรรมดามาก อันที่จริงมีคนโพสต์ภาพหน้าจอจากบัญชีผู้ดูแลเว็บของพวกเขาซึ่งแสดงว่า Google ได้จัดทำดัชนีเกือบ 50,000 หน้าทั้งหมด และฉันสงสัยว่า superuser นั้นเป็นที่นิยมมากกว่า (เช่นมีความนิยมลิงค์ดีกว่า) กว่าเว็บไซต์อื่น
John Conde

1
"คุณมีรายการ URL มากกว่า 50,000 รายการนั่นคือจำนวนสูงสุดที่ Sitemap หนึ่งรายการสามารถรวมได้" sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Jeff Atwood

1
หากคุณมี sitemap สำหรับแต่ละวันที่ไม่เคยเปลี่ยนหลังจากวันที่ผ่านไปเพื่อให้ sitemap ไม่ต้องได้รับการยอมรับอีกครั้งพวกเขาสามารถรวบรวมข้อมูลลิงก์ที่มีการจัดทำดัชนีสำหรับการเปลี่ยนแปลงอยู่แล้วดังนั้น Google จึงไม่ต้องดำเนินการต่อ 50,000 url ต่อวันเพื่อดูว่าอันไหนเก่าและใหม่
Sevki

@sevki คำถามที่ 50,001 ที่เก่าแก่ที่สุดโดย ACTIVITY DATE (คำตอบใหม่การแก้ไขและอื่น ๆ ชนวันที่นี้) จะไม่อยู่ในแผนผังไซต์ โปรดจำไว้ว่า superuser มีคำถามทั้งหมดเพียง 55k คำถาม
Jeff Atwood

@Jeff แต่ SO.com มี 1,014,782 และ 964,782 ไม่ได้อยู่ในแผนผังเว็บไซต์ดังนั้น google หรือ bing ไม่ทราบว่าเมื่อใดที่มีการแก้ไขครั้งล่าสุด .. นั่นไม่ได้เพิ่มการรวบรวมข้อมูลของคุณ ยังไงก็ตามฉันไม่ต้องการที่จะน่ารำคาญเพียงแค่พยายามช่วยฉันส่งอีเมลถึงคุณพร้อมรายละเอียดเพิ่มเติม
Sevki

2

ดูเหมือนว่า Google จะระบุว่ามีการเชื่อมโยงส่ง 46,514 อยู่ในดัชนี มันอาจเป็นปัญหากับ (ฉันเกลียดที่จะพูด) แต่การจัดอันดับหน้า? ไซต์ที่ขูดอาจทำให้การเชื่อมโยงข้ามงาน ฯลฯ ดีขึ้นและอยู่ในอันดับที่สูงขึ้น แค่ความคิด

ไซต์การค้นหานี้: superuser.com วิธีดูจุดสิ้นสุดของลิงก์สัญลักษณ์ยาว ๆดูเหมือนจะดึงข้อมูล sitemap.xml ของคุณอย่างถูกต้องแม้ว่าจะไม่ได้ผลลัพธ์ที่คาดหวัง


ไซต์การคัดลอกนั้นให้แอตทริบิวต์กับ superuser.com ในฐานะผู้เขียนต้นฉบับ (แม้ว่าพวกเขาจะมีความชัดเจนมากขึ้นเกี่ยวกับเรื่องนี้) ดังนั้น Google ควรรู้ว่าพวกเขาเป็นผู้เขียนดั้งเดิมของเนื้อหาและให้ความสำคัญเหนือไซต์การคัดลอก
John Conde

@john ถูกต้องเราต้องการการระบุแหล่งที่มาพร้อมกับการติดตามตามที่ระบุไว้ในblog.stackoverflow.com/2010/08/defending-attribution-required
Jeff Atwood

แผนผังไซต์ที่แคชนั้นคือ "ตามที่ปรากฏในวันที่ 17 ตุลาคม 2010 เวลา 05:40:35 GMT", 4 วันก่อน ณ เวลาที่ฉันเขียนสิ่งนี้ดังนั้นจึงไม่มีอะไรมาก ฉันเห็นว่ามีการตรวจสอบ URL จำนวนหนึ่งใน sitemap.xml ที่แคชและพวกเขามีอยู่เป็นหน้าคำถามใน google เช่นกัน
Jeff Atwood

@john คุณสามารถยกตัวอย่างว่าพวกเขาให้แสดงที่มาอย่างไร ขอบคุณ
Greg B

@Greg เพียงมองหาโลโก้ superuser
John Conde

2

ด้วยสิ่งประเภทนี้มีคำตอบมากมายที่อาจเกิดขึ้น

ฉันจะเริ่มต้นด้วยการถามจำนวนหน้าจริง ๆ ของคุณ (คุณส่ง 50,000 URL ไปยังเว็บไซต์ด่วน: superuser.com แสดง 125,000 ที่มีการจัดทำดัชนีคุณคิดว่าคุณมี URL 50K เท่านั้นและกำลังส่ง URL เหล่านั้นทั้งหมด แต่ Google กำลังค้นหาสำเนา 2-3 หน้าในแต่ละหน้าหรือคุณอาจมี 1Mil URL และ 12.5 เท่านั้น % กำลังได้รับการจัดทำดัชนี) การได้รับภาพรวมช่วยในการกำหนดตำแหน่งที่จะค้นหาปัญหา

หากไม่มีอะไรผิดปกติกับขั้นตอนที่หนึ่งฉันจะย้ายไปที่เนื้อหาดูเหมือนว่า QH มีเนื้อหาจำนวนมากบนหน้าของพวกเขาและเชื่อมโยง "แหล่งข้อมูล" อื่น ๆ อีกมากมายแม้ว่าข้อเท็จจริงที่ว่าเนื้อหาทั้งหมดของพวกเขาจะถูกคัดลอกเป็นไปได้ก็ตาม หน้ามีประโยชน์มากขึ้นเนื่องจากพวกเขาให้ทรัพยากร / ข้อมูลเพิ่มเติมแก่ผู้ใช้ หากพวกเขาได้รับการพิจารณาว่าเป็นผู้มีอำนาจและเนื้อหาทั้งหมดของคุณจะเหมือนกับของพวกเขาเป็นไปได้ว่า Google จะไม่สร้างดัชนีของคุณแม้ว่าคุณจะเป็นคนดั้งเดิม

หากคุณมั่นใจว่าไม่ใช่ปัญหาที่สร้างลิงก์คุณภาพสูงให้บล็อกคำถามนี้ในบล็อกของพนักงานที่เป็นที่นิยมหรือขอให้เพื่อนบล็อกเกี่ยวกับเรื่องนี้บางทีถ้าคุณมีเพื่อน SEO ที่ใช้บล็อกยอดนิยมที่พวกเขาต้องการเขียน กรณีศึกษาเกี่ยวกับมันเป็นต้น

หากคุณได้รับลิงก์จำนวนมากและยังไม่ได้รับการจัดทำดัชนีหาสาเหตุอาจถูกลงโทษ (ในกรณีส่วนใหญ่ปัญหานี้จะไม่เกิดขึ้น แต่ไม่เคยเจ็บปวดที่จะตรวจสอบ)

หากไม่มีการทำงานใด ๆ เลย 9 เท่าจากทั้งหมด 10 ครั้งเป็นปัญหาทางเทคนิคที่ไม่อาจมองข้ามได้ (การยกเว้นหุ่นยนต์หรือสิ่งที่คล้ายกัน)

หากคุณยังไม่มีคำตอบหลังจากดำเนินการตามนี้โปรดถาม Google และหวังว่าพวกเขาจะได้รับคำตอบจากคุณ


0

คำถามเพิ่งถูกถามเมื่อวานนี้ - ให้โอกาสแก่ Googlebot คุณไม่ใช่ไซต์เดียวบนอินเทอร์เน็ตที่เขาต้องคลานรู้ :)

หากมีการจัดทำดัชนีคำถามตามปกติภายในหนึ่งวันและอีกหนึ่งสัปดาห์ที่ผ่านไปและคำถามนั้นยังไม่ได้รับการจัดทำดัชนีฉันอาจกังวล แต่ไม่แน่นอนหลังจาก 1 วัน


1
โดยปกติจะปรากฏภายในหนึ่งชั่วโมง ดังนั้นฉันเห็นด้วยฉันควรให้เวลา แต่เมื่อเทียบกับความถี่ปกติ ... ฉันมี
Michael Pryor

@michael ตรวจสอบให้แน่ใจว่าคุณเปรียบเทียบแอปเปิ้ลกับแอปเปิ้ล - ดูเหมือนว่า Google จะจัดทำดัชนี stackoverflow.com ในอัตราที่สูงกว่าเว็บไซต์อื่น ๆ ของเรา
Jeff Atwood
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.