ฉันค้นคว้าคำตอบสำหรับคำถามนี้ด้วยวิธีนี้: การใช้ Google เนื่องจากนี่เป็นตัวอย่างที่ฉันมีวิธีที่ Google ได้รับวันที่สร้างและวันที่แก้ไขและรูปแบบวันที่ที่ Google รับรู้ โปรดเข้าใจว่าข้อมูลนี้ไม่มีอยู่ในหน้าเพียงไม่กี่หน้าและฉันต้องค้นหาข้อมูลจากหลายแหล่งซึ่งบางแห่งดูเหมือนจะไม่ได้นำไปใช้โดยตรงและนำมารวมเข้าด้วยกัน ในบางกรณีข้อมูลนั้นมาจากหลายแหล่งและไม่สามารถหาได้เสมอไป
Google ค้นหาวันที่ของหน้าตามลำดับนี้ URL, แท็กชื่อ, เนื้อหา (เนื้อหา), เมตาแท็ก, ส่วนหัวตอบกลับ HTTP อย่างน้อยเท่าที่เกี่ยวข้องกับเครื่องมือค้นหาของ Google ในย่อหน้าอื่น ๆ ในเอกสารอื่นไม่มีการบันทึกคำสั่งซื้อ แต่มีการพูดคุยรายการและดูเหมือนจะยืนยันรายการ หากคุณคิดเกี่ยวกับสิ่งนี้จะสะท้อนลำดับที่เครื่องมือค้นหาต้องการ หนึ่ง - ค้นพบเพจของคุณ (ลิงก์) และสองรายการ - อ่านหน้าของคุณจากบนลงล่าง (ชื่อเนื้อหาและเมตาแท็ก) ยกเว้นเมตาแท็ก (รายละเอียดเล็กน้อย) และส่วนหัวการตอบกลับ HTTP นี่คือรายการเท่าที่อุปกรณ์มีความกังวล:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
หมายเหตุ: วันที่ลงทะเบียนคือวันที่หน้าแรกถูกร้องขอโดย Google ในกรณีที่ไม่มีวันที่สร้างวันที่ก่อตั้งจะถูกนำมาใช้
1] เครื่องมือค้นหาใด ๆ สามารถร้องขอทรัพยากรผ่านการร้องขอ HTTP GET และเว็บเซิร์ฟเวอร์ส่งคืนวันที่แก้ไขล่าสุดภายในส่วนหัวการตอบกลับด้วยทรัพยากรภายในแพ็กเก็ตข้อมูล
2] เครื่องมือค้นหาใด ๆ สามารถร้องขอข้อมูลส่วนหัวของทรัพยากรผ่านการร้องขอ HTTP HEAD และเว็บเซิร์ฟเวอร์ส่งคืนวันที่แก้ไขภายในส่วนหัวการตอบสนองโดยไม่มีทรัพยากรภายในแพ็คเก็ตข้อมูล
3] เครื่องมือค้นหาใด ๆ ที่สามารถร้องขอหากมีการแก้ไขทรัพยากรตั้งแต่วันที่กำหนดโดยขอทรัพยากรที่มี HTTP GET พร้อมกับ if-modified-ตั้งแต่ตั้งค่าเป็นวันที่ หากทรัพยากรได้รับการแก้ไขตั้งแต่ตั้งวันเว็บเซิร์ฟเวอร์จะตอบสนองด้วยการตอบสนอง 200 Ok และส่งคืนทรัพยากรหรือหากทรัพยากรนั้นไม่ได้รับการแก้ไขตั้งแต่วันที่กำหนดเว็บเซิร์ฟเวอร์จะตอบกลับด้วย 304 ไม่ถูกแก้ไขโดยไม่ส่งคืนทรัพยากร .
Google ส่งคำขอจำนวนมากโดยใช้วิธีที่ 3 เพื่อประหยัดแบนด์วิดท์ คุณจะเห็นสิ่งเหล่านี้ในไฟล์บันทึกของเว็บเซิร์ฟเวอร์
หมายเหตุ: เป็นไปได้ว่าระบบการจัดการเนื้อหา (CMS) หรือซอฟต์แวร์อื่นไม่สามารถให้วันที่อย่างเหมาะสมภายในส่วนหัวการตอบกลับ
ตัวอย่างวันที่เหล่านี้มาจากเอกสารของอุปกรณ์ Google แต่มีอยู่ในสถานที่อื่น ๆ ที่เกี่ยวข้องกับการค้นหาทั่วไป ฉันนำรายละเอียดเหล่านี้มาจากเอกสารประกอบเครื่องใช้ไฟฟ้าเพียงเพราะมันสามารถตัดและวางเป็นรายการที่ไม่ได้เรียบร้อยในที่อื่น ๆ
4] Google ค้นหาวันที่ภายใน URL มันค้นหารูปแบบต่อไปนี้ YYYMMDDHH - YYYY - YYYYMM
5] Google ค้นหาวันที่ภายในแท็กชื่อ มันค้นหารูปแบบต่อไปนี้ YYYMMDDHH - YYYY - YYYYMM แม้ว่าฉันสงสัยว่ารูปแบบอื่น ๆ จะได้รับการยอมรับ ดูด้านล่าง
6] Google ค้นหาวันที่ภายในแท็กเนื้อหา (เนื้อหา) มันค้นหารูปแบบต่อไปนี้ YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY แม้ว่าฉันจะสงสัยว่ารูปแบบอื่นจะสามารถรับรู้ได้ ดูด้านล่าง
หมายเหตุ: เป็นที่ทราบกันว่า Google มองหาวันที่โดยเฉพาะภายใต้H1
แท็กแรก เนื่องจากบล็อกมักจะใส่วันที่ในตำแหน่งนี้
7] Google ค้นหาเมตาแท็กเช่นนี้ <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
Google ได้รับการกล่าวว่าให้จดจำรูปแบบวันที่ดังต่อไปนี้
YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MM.DD - YY / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - จันทร์ YYYY - MON D, YR - จันทร์ YY - YYYY-DM - YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - DD-MM-YY - MM-DD-YY - DD / MM / YY - MM / DD / YY - YYYYMMMMDDHH - YYYYMMMMD - YYYYMM - YYYYY - DDMMYYYY - MMDDYYY - MMDYYYY
การวิจัยที่ฉันพบไม่ตอบคำถามเวลา
ในกรณีของตัวอย่างที่อ้างถึงหน้าเว็บจะไม่ให้เบาะแสวันที่ยกเว้นภายในแท็ก span ซึ่งอาจถูกละเว้น เป็นไปได้ว่าซอฟต์แวร์ SE / เว็บเซิร์ฟเวอร์ไม่สามารถส่งคืนการสร้างและแก้ไขวันที่ภายในส่วนหัวการตอบกลับใด ๆ
ทำไมและวันที่ Google ได้รับวันที่เหล่านี้เป็นคำถามที่ดีที่อาจไม่ได้รับการแก้ไข ฉันจะดูต่อไป