ฉันจะทำให้ Github Wiki รวบรวมข้อมูลโดยเครื่องมือค้นหาได้อย่างไร robots.txt ดูเหมือนว่าจะห้ามไว้


9

ขณะใช้ตัวตรวจสอบลิงก์ W3Cฉันพบว่า Github Wiki ของฉันไม่สามารถรวบรวมข้อมูลได้:

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
สถานะ: (N / A) ถูกห้ามโดย robots.txt

นี่เป็นเรื่องโชคร้ายเพราะฉันต้องการให้ผู้คนค้นพบวิกินี้ในเครื่องมือค้นหาได้อย่างง่ายดาย

คำถาม:ฉันจะทำให้ Github Wiki รวบรวมข้อมูลโดยเครื่องมือค้นหาได้อย่างไร
หรือฉันเข้าใจผิดและ robots.txt ของ Github นั้นใช้ได้จริงหรือ


1
ฉันสงสัยว่าคำตอบนั้นเหมือนกันกับในคำถามที่คล้ายกันนี้
จอห์นซี

คำตอบ:


9

GitHub robots.txtไม่อนุญาตให้รวบรวมข้อมูลหน้า wiki อย่างชัดเจนตัวอย่างเช่นในส่วน Googlebot:

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

เนื่องจากนี่เป็นไฟล์โรบ็อตทั่วทั้งไซต์จึงไม่มีสิ่งใดเกี่ยวข้อง

มันเป็นตัวเลือกที่น่าสนใจเนื่องจาก GitHub อธิบายวิกิว่าเป็นสถานที่ในการ "แบ่งปันเนื้อหาแบบยาวเกี่ยวกับโครงการของคุณ" เนื่องจากโดยค่าเริ่มต้นสาธารณะ wikis สามารถแก้ไขได้โดยผู้ใช้ใด ๆ บางทีอาจเป็นการป้องกันที่หนักหน่วงจากสแปมเมอร์


0

วิกิ GitHub สามารถค้นหาได้โดยเครื่องมือที่รองรับ ดูสองบรรทัดแรกของhttps://github.com/robots.txt :

# If you would like to crawl GitHub contact us at support@github.com.
# We also provide an extensive API: https://developer.github.com/

อาจเป็นเพราะการแยกวิเคราะห์รูปแบบ wiki ต่าง ๆ เป็นต้น

ตัวอย่างเช่นการค้นหาใน Google สำหรับ "โพรโทคอลโบรกเกอร์ openrefine" และการเข้าชมครั้งแรกคือหน้าเว็บภายใต้วิกิโครงการ Github


อืมเหตุใด Google จึงจัดทำดัชนีวิกิของBroker-Protocolไม่ใช่วิกิของ OP
Vidar S. Ramdal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.