อะไรคือ "บทความ 2001" สำหรับการปิดกั้น "โปรแกรมดึงข้อมูลอัตโนมัติ" ที่อ้างถึงโดยหน้าคน wget?


11

wgetหน้าคนกล่าวนี้ภายใต้หัวข้อสำหรับ--random-waitพารามิเตอร์:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

ฉันต้องการได้รับสำเนาของบทความนี้เพื่ออ่านและได้ลองค้นหาบนอินเทอร์เน็ตเพื่อหาบทความจำนวนมาก อย่างไรก็ตามสิ่งที่ฉันสามารถค้นหาได้ด้วยการค้นหาเหล่านี้คือหน้าคนสำหรับwgetโฮสต์บนเว็บไซต์ต่างๆ และงานวิจัยอื่น ๆ ที่ไม่มีความเกี่ยวข้องกับหัวข้อนี้

ไม่มีใครรู้ว่าบทความใดที่ถูกอ้างถึงและฉันจะได้รับสำเนาได้ที่ไหน?


ฉันกำลังขุดผ่านรายชื่อผู้รับจดหมาย wget และพบสิ่งนี้: lists.gnu.org/archive/html/bug-wget/2015-05/msg00029.html
7171u

คำตอบ:


15

แม้ว่าจะไม่ใช่คำตอบโดยตรงgit blameและgit logเปิดเผยว่าส่วนนี้ได้รับการแนะนำในคอมมิชชัน 2c41d783โดยผู้เรียกhniksicซึ่งกลายเป็น Hrvoje Niksic ที่อยู่อีเมลของเขาสามารถพบได้ในChangeLogไฟล์ของ wget (ฉันจะไม่เผยแพร่ที่นี่ด้วยเหตุผลที่ชัดเจน) ฉันขอแนะนำให้ถามเขาโดยตรงเพราะเขาอาจจะดีที่สุดในการให้คำตอบที่เพียงพอมากกว่า ในขณะนั้นคุณอาจลองถามเขาว่าเขาจะอัพเดต manpage ตามนั้นหรือไม่ ;)


4

ฉันคิดว่ามันอาจเป็นบทความนี้:

การสร้างข้อมูลที่มีความหมายจากบันทึกการใช้เว็บโดยใช้ SAS ฐาน

มีย่อหน้าคุยการบล็อกของช่วงคลาส C:

เมื่อที่อยู่ IP ถูกแบ่งออกเป็นส่วนประกอบการกรองช่วงของที่อยู่ IP จะง่าย ตัวกรองคลาส B ทำกับสองออคเต็ตแรกเช่น 168.126.xx.xx นี่คือตัวแปร Onetwo ในตัวอย่างโค้ดด้านบน ช่วงคลาส C มีการใช้กันอย่างแพร่หลายมากขึ้นเนื่องจากมีการกำหนดเป้าหมายเซิร์ฟเวอร์ทั้งหมดและใช้สามในสี่อ็อกเท็ตเช่น 168.126.56.xx ในตัวอย่างโค้ดข้างต้นฟิลด์นี้สามระบุว่า Usrhost เป็นค่าที่อยู่ TCP / IP ของบันทึกการใช้เว็บ

และอีกอย่างหนึ่งที่กล่าวถึงwgetในการบล็อกสตริงตัวแทนของผู้ใช้:

วิธีการที่เราต้องการสำหรับการระบุสตริงตัวแทนของผู้ใช้ใช้ฟังก์ชั่นการจับคู่รูปแบบดัชนี ตัวอย่างเช่น:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

มันเป็นผลที่ห้าในGoogling สำหรับ "เข้าสู่ระบบการวิเคราะห์ wget" สำหรับปี 2001

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.