จะบอกอายุหน้าได้อย่างไร?


15

ฉันคิดว่า Google มีความแม่นยำมากกว่าหรือน้อยกว่าในการพิจารณาว่าใครโพสต์ข้อความก่อนและคัดลอก อย่างไรก็ตามเมื่อฉันใช้ "เครื่องมือค้นหา: ช่วงเวลาที่กำหนดเอง" ผลลัพธ์จะค่อนข้างแปลก ฉันพบหน้าเว็บย้อนหลังไปถึงปี 2002 สำหรับเว็บไซต์ที่ฉันมีเพียงไม่กี่ปี

ดังนั้น Google จึงไม่ถูกต้องที่จะค้นหาว่าใครเป็นคนลอกเลียนแบบและใครเป็นคนเขียนต้นฉบับ คืออะไร?

ป้อนคำอธิบายรูปภาพที่นี่

หากstackexchange.comถูกสร้างขึ้นในปี 2009 แล้วจะเป็นไปได้อย่างไร? hermeneutics.seเก่ากว่า Stack Overflow!


มีใครบางคนเป็นเจ้าของชื่อโดเมนก่อนที่คุณ? หน้าใดที่คุณกำลังเปรียบเทียบใน Google
Closnoc

ฉันอัพเดตคำถามด้วยข้อมูล SE การประทับเวลาไม่ถูกต้อง
Renan

2
ว้าว. ฉันไม่แน่ใจ. ฉันเข้าใจกลไกของเรื่องนี้ตามปกติ แต่สิ่งที่ Google ทำยังคงเป็นปริศนา มีข้อมูลน้อยมากเกี่ยวกับวิธีที่ Google กำหนดวันที่ เรามีคำถามเกี่ยวกับวิธีที่ Google กำหนดวันที่แก้ไขเมื่อไม่นานมานี้ ฉันทำวิจัยและแทบจะไม่มีอะไรเลย ยังฉันจะดูอีกครั้ง แต่อาจใช้เวลาสองสามวัน โปรดทราบว่าซอฟต์แวร์ CMS และโอกาสที่รหัส SE จะไม่กลับมาสร้างและแก้ไขวันที่อย่าง Apache สำหรับเพจ HTML และนี่อาจเป็นคำตอบ
Closnoc

ไม่จำเป็นต้องเป็น Google แต่ฉันต้องการทราบว่าผู้ใช้ของฉันลอกเลียนแบบหรือลอกเลียนแบบหรือไม่ = /
Renan

จนถึงตอนนี้ดูเหมือนว่า Google จะไม่เข้าใจรูปแบบวันที่ภายใน HTML แต่นี่ไม่ได้ข้อสรุป ซอร์สโค้ดของหน้าตัวอย่างแรกไม่ได้ให้เบาะแสที่ชัดเจนแก่ Google Google (อย่างน้อย) หน้าตาหรือวันที่ตามลำดับนี้: URL, ชื่อ, เนื้อหา (เนื้อหา), เมตาแท็ก, วันที่แก้ไขล่าสุดจากการตอบกลับ HTTP คำขอ HEAD ส่งคืนวันที่สร้างและวันที่แก้ไขล่าสุด เช่นกัน GET ที่มี if-modified- เนื่องจากส่งคืนทรัพยากรด้วย 200 Ok หรือส่งคืน 304 Not Modified รหัส SE อาจไม่ส่งคืน URL, ชื่อเนื้อหาและเมตาแท็กเหล่านี้และใช้ได้เท่านั้น
Closnoc

คำตอบ:


12

ฉันค้นคว้าคำตอบสำหรับคำถามนี้ด้วยวิธีนี้: การใช้ Google เนื่องจากนี่เป็นตัวอย่างที่ฉันมีวิธีที่ Google ได้รับวันที่สร้างและวันที่แก้ไขและรูปแบบวันที่ที่ Google รับรู้ โปรดเข้าใจว่าข้อมูลนี้ไม่มีอยู่ในหน้าเพียงไม่กี่หน้าและฉันต้องค้นหาข้อมูลจากหลายแหล่งซึ่งบางแห่งดูเหมือนจะไม่ได้นำไปใช้โดยตรงและนำมารวมเข้าด้วยกัน ในบางกรณีข้อมูลนั้นมาจากหลายแหล่งและไม่สามารถหาได้เสมอไป

Google ค้นหาวันที่ของหน้าตามลำดับนี้ URL, แท็กชื่อ, เนื้อหา (เนื้อหา), เมตาแท็ก, ส่วนหัวตอบกลับ HTTP อย่างน้อยเท่าที่เกี่ยวข้องกับเครื่องมือค้นหาของ Google ในย่อหน้าอื่น ๆ ในเอกสารอื่นไม่มีการบันทึกคำสั่งซื้อ แต่มีการพูดคุยรายการและดูเหมือนจะยืนยันรายการ หากคุณคิดเกี่ยวกับสิ่งนี้จะสะท้อนลำดับที่เครื่องมือค้นหาต้องการ หนึ่ง - ค้นพบเพจของคุณ (ลิงก์) และสองรายการ - อ่านหน้าของคุณจากบนลงล่าง (ชื่อเนื้อหาและเมตาแท็ก) ยกเว้นเมตาแท็ก (รายละเอียดเล็กน้อย) และส่วนหัวการตอบกลับ HTTP นี่คือรายการเท่าที่อุปกรณ์มีความกังวล:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

หมายเหตุ: วันที่ลงทะเบียนคือวันที่หน้าแรกถูกร้องขอโดย Google ในกรณีที่ไม่มีวันที่สร้างวันที่ก่อตั้งจะถูกนำมาใช้

1] เครื่องมือค้นหาใด ๆ สามารถร้องขอทรัพยากรผ่านการร้องขอ HTTP GET และเว็บเซิร์ฟเวอร์ส่งคืนวันที่แก้ไขล่าสุดภายในส่วนหัวการตอบกลับด้วยทรัพยากรภายในแพ็กเก็ตข้อมูล

2] เครื่องมือค้นหาใด ๆ สามารถร้องขอข้อมูลส่วนหัวของทรัพยากรผ่านการร้องขอ HTTP HEAD และเว็บเซิร์ฟเวอร์ส่งคืนวันที่แก้ไขภายในส่วนหัวการตอบสนองโดยไม่มีทรัพยากรภายในแพ็คเก็ตข้อมูล

3] เครื่องมือค้นหาใด ๆ ที่สามารถร้องขอหากมีการแก้ไขทรัพยากรตั้งแต่วันที่กำหนดโดยขอทรัพยากรที่มี HTTP GET พร้อมกับ if-modified-ตั้งแต่ตั้งค่าเป็นวันที่ หากทรัพยากรได้รับการแก้ไขตั้งแต่ตั้งวันเว็บเซิร์ฟเวอร์จะตอบสนองด้วยการตอบสนอง 200 Ok และส่งคืนทรัพยากรหรือหากทรัพยากรนั้นไม่ได้รับการแก้ไขตั้งแต่วันที่กำหนดเว็บเซิร์ฟเวอร์จะตอบกลับด้วย 304 ไม่ถูกแก้ไขโดยไม่ส่งคืนทรัพยากร .

Google ส่งคำขอจำนวนมากโดยใช้วิธีที่ 3 เพื่อประหยัดแบนด์วิดท์ คุณจะเห็นสิ่งเหล่านี้ในไฟล์บันทึกของเว็บเซิร์ฟเวอร์

หมายเหตุ: เป็นไปได้ว่าระบบการจัดการเนื้อหา (CMS) หรือซอฟต์แวร์อื่นไม่สามารถให้วันที่อย่างเหมาะสมภายในส่วนหัวการตอบกลับ

ตัวอย่างวันที่เหล่านี้มาจากเอกสารของอุปกรณ์ Google แต่มีอยู่ในสถานที่อื่น ๆ ที่เกี่ยวข้องกับการค้นหาทั่วไป ฉันนำรายละเอียดเหล่านี้มาจากเอกสารประกอบเครื่องใช้ไฟฟ้าเพียงเพราะมันสามารถตัดและวางเป็นรายการที่ไม่ได้เรียบร้อยในที่อื่น ๆ

4] Google ค้นหาวันที่ภายใน URL มันค้นหารูปแบบต่อไปนี้ YYYMMDDHH - YYYY - YYYYMM

5] Google ค้นหาวันที่ภายในแท็กชื่อ มันค้นหารูปแบบต่อไปนี้ YYYMMDDHH - YYYY - YYYYMM แม้ว่าฉันสงสัยว่ารูปแบบอื่น ๆ จะได้รับการยอมรับ ดูด้านล่าง

6] Google ค้นหาวันที่ภายในแท็กเนื้อหา (เนื้อหา) มันค้นหารูปแบบต่อไปนี้ YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY แม้ว่าฉันจะสงสัยว่ารูปแบบอื่นจะสามารถรับรู้ได้ ดูด้านล่าง

หมายเหตุ: เป็นที่ทราบกันว่า Google มองหาวันที่โดยเฉพาะภายใต้H1แท็กแรก เนื่องจากบล็อกมักจะใส่วันที่ในตำแหน่งนี้

7] Google ค้นหาเมตาแท็กเช่นนี้ <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Google ได้รับการกล่าวว่าให้จดจำรูปแบบวันที่ดังต่อไปนี้

YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MM.DD - YY / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - จันทร์ YYYY - MON D, YR - จันทร์ YY - YYYY-DM - ​​YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - DD-MM-YY - MM-DD-YY - DD / MM / YY - MM / DD / YY - YYYYMMMMDDHH - YYYYMMMMD - YYYYMM - YYYYY - DDMMYYYY - MMDDYYY - MMDYYYY

การวิจัยที่ฉันพบไม่ตอบคำถามเวลา

ในกรณีของตัวอย่างที่อ้างถึงหน้าเว็บจะไม่ให้เบาะแสวันที่ยกเว้นภายในแท็ก span ซึ่งอาจถูกละเว้น เป็นไปได้ว่าซอฟต์แวร์ SE / เว็บเซิร์ฟเวอร์ไม่สามารถส่งคืนการสร้างและแก้ไขวันที่ภายในส่วนหัวการตอบกลับใด ๆ

ทำไมและวันที่ Google ได้รับวันที่เหล่านี้เป็นคำถามที่ดีที่อาจไม่ได้รับการแก้ไข ฉันจะดูต่อไป


3
คุณมีการอ้างอิงใด ๆ สำหรับ "Google ค้นหาวันที่หน้าตามลำดับนี้ URL, แท็กชื่อ, เนื้อหา (เนื้อหา), เมตาแท็ก, ส่วนหัวการตอบสนอง HTTP" หรือไม่ คุณมีหมายเลขหรือสถิติสำหรับการวิจัยนี้หรือไม่? หากคุณสามารถโพสต์ข้อมูลอ้างอิงสำหรับสิ่งที่คุณโพสต์ที่นี่มันจะดีกว่าสำหรับเราทุกคน
PatomaS

ฉันขอขอบคุณที่คุณถามสิ่งนี้ สิ่งที่ฉันพบส่วนใหญ่เป็นบิตและชิ้นส่วน พบรายการในหลายสถานที่ แต่พบคำสั่งซื้อในเอกสารสำหรับเครื่องมือค้นหาของ Google และดูเหมือนจะสำรองไว้ในย่อหน้าในที่อื่น ๆ ฉันดูเอกสารหลายโหลที่ใช้เวลาค้นหาค่อนข้างนาน ฉันพยายามระวังที่จะบอกว่าฉันต้องรวบรวมข้อมูลจากแหล่งข้อมูลที่หลากหลายเนื่องจากดูเหมือนจะไม่มีข้อมูลโดยตรงเกี่ยวกับเรื่องนี้ ฉันจะแก้ไขคำสั่งเพื่อให้ชัดเจนขึ้น
closetnoc

ฉันยังสามารถยืนยันได้ว่าสตริงรูปแบบวันที่ต่อไปนี้ที่บรรจุในarticle.post > div.post-content > h2 > pระดับหนึ่งเพิ่งถูกหยิบขึ้นมาโดย Google และเคยแสดงวันที่: "อัปเดตครั้งล่าสุด: 7 ตุลาคม 2018"
Matt

-2

หากคุณต้องการที่จะเห็นวิธีการเดิมคือโดเมนค้นหาใน Google สำหรับเครื่อง Wayback เว็บไซต์นี้เป็นสิ่งที่คุณกำลังมองหา: http://archive.org/web/

หากคุณต้องการตรวจจับการลอกเลียนลิงค์นี้จะช่วยคุณ: http://copyscape.com/signup.php?pro=0&o=f

และค้นหา "ตัวตรวจสอบการลอกเลียนแบบ" ใน Google ด้วย

หวังว่าฉันช่วย


3
ด้วยความเคารพคุณต้องอ่านคำถามอีกครั้ง
Closnoc

คำถามคือ "จะบอกได้อย่างไรว่าหน้าเก่าเป็นอย่างไร" โปรดติดตามลิงค์ของฉันและคุณจะเห็นว่าคำตอบนั้นดี ขอขอบคุณที่อ่านสิ่งนี้
Pascut

3
คุณไม่ได้อ่านคำถาม คุณกำลังอ่านชื่อ ทางด้านหลังเครื่องไม่ตอบคำถาม
Closnoc

คุณกำลังขวาผมได้แก้ไขคำถามของฉัน ..
Pascut

1
เครื่อง Wayback ติดตามหน้าในโดเมน ไม่มีประโยชน์ในการเปรียบเทียบวันที่ระหว่างหน้าเฉพาะ ฉันกำลังมองหาวิธีที่ถูกต้องในการบอกว่ารายการใดถูกโพสต์ก่อน
Renan
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.