ผู้เข้าชมที่ไม่ซ้ำไปยังเว็บไซต์ทำตามกฎหมายเรื่องอำนาจหรือไม่


14

สมมติว่าฉันมีเวกเตอร์ที่สั่งซื้อซึ่งองค์ประกอบแรกคือจำนวนการเข้าชมเว็บไซต์ในช่วงเวลาที่กำหนดโดย IP ที่ไม่ซ้ำกับจำนวนการเข้าชมสูงสุดองค์ประกอบที่สองคือจำนวนการเข้าชมโดย IP ที่ไม่ซ้ำกับวินาที จำนวนการเข้าชมสูงสุดและอื่น ๆ ฉันเข้าใจว่าอาจมีรูปแบบของไซต์ต่อหนึ่งรูปแบบ แต่โดยทั่วไปจะมีรูปแบบที่ถือว่าเป็นรูปร่างของเวกเตอร์นี้หรือไม่ ยกตัวอย่างเช่นทำตามการกระจายอำนาจหรือไม่


6
IP จะไม่จับคู่กับคนโดยเฉพาะอย่างยิ่งเนื่องจากการกำหนดแอดเดรสแบบไดนามิกและปัญหาอื่น ๆ (เช่นผู้ใช้คอมพิวเตอร์หลายเครื่อง) หากฉันต้องการทดสอบสมมติฐานนี้ฉันอาจใช้รหัสผู้เข้าชมแทนที่อยู่ IP
richiemorrisroe

คำตอบ:


23

ไม่ผู้เยี่ยมชมเว็บไซต์ที่ไม่ซ้ำกันไม่ปฏิบัติตามกฎหมายด้านพลังงาน

ในช่วงไม่กี่ปีที่ผ่านมามีการเพิ่มความเข้มงวดในการทดสอบการอ้างสิทธิ์กฎหมายพลังงาน (เช่น Clauset, Shalizi และ Newman 2009) เห็นได้ชัดว่าการอ้างสิทธิ์ที่ผ่านมามักจะไม่ได้รับการทดสอบอย่างดีและเป็นเรื่องธรรมดาที่จะวางแผนข้อมูลในระดับล็อก - ล็อกและใช้ "การทดสอบลูกตา" เพื่อแสดงเส้นตรง ตอนนี้การทดสอบที่เป็นทางการเป็นเรื่องธรรมดามากขึ้นการกระจายจำนวนมากกลายเป็นว่าไม่ปฏิบัติตามกฎหมายพลังงาน

การอ้างอิงสองข้อที่ดีที่สุดที่ฉันรู้ว่าการตรวจสอบการเยี่ยมชมของผู้ใช้บนเว็บคือ Ali and Scarr (2007) และ Clauset, Shalizi และ Newman (2009)

Ali and Scarr (2007)ดูตัวอย่างแบบสุ่มของผู้ใช้คลิกบนเว็บไซต์ Yahoo และสรุป:

ภูมิปัญญาที่เหนือกว่าคือการกระจายตัวของการคลิกบนเว็บและการดูหน้าเว็บเป็นไปตามการกระจายกฎหมายพลังงานแบบไร้ขอบเขต อย่างไรก็ตามเราพบว่าคำอธิบายข้อมูลที่ดีกว่าอย่างมีนัยสำคัญทางสถิติคือการกระจาย Zipf - Mandelbrot ที่มีความไวต่อขนาดและการผสมของมันจะช่วยเพิ่มความกระชับ การวิเคราะห์ก่อนหน้านี้มีข้อเสียสามประการ: พวกเขาใช้ชุดเล็ก ๆ ของการกระจายตัวของผู้สมัคร, วิเคราะห์พฤติกรรมเว็บผู้ใช้ที่ล้าสมัย (ประมาณปี 1998) และใช้วิธีการทางสถิติที่น่าสงสัย แม้ว่าเราไม่สามารถแยกแยะได้ว่าการกระจายตัวเหมาะสมไม่อาจพบได้ในหนึ่งวัน แต่เราสามารถพูดได้อย่างแน่นอนว่าการกระจาย Zipf-Mandelbrot ที่ไวต่อสเกลนั้นให้ข้อมูลที่มีความแข็งแกร่งทางสถิติมากกว่าการใช้พลังงานแบบไร้กฎหรือ Zipf ความหลากหลายของแนวดิ่งจากโดเมน Yahoo

นี่คือฮิสโตแกรมของผู้ใช้แต่ละรายคลิกไปเดือนและข้อมูลเดียวกันของพวกเขาในพล็อตการบันทึกล็อกด้วยรูปแบบที่แตกต่างกันพวกเขาเปรียบเทียบ ข้อมูลไม่ชัดเจนในสายบันทึกการทำงานแบบตรงซึ่งคาดว่าจะได้รับจากการจ่ายพลังงานที่ไม่มีขนาด

รูปที่ 2 และ 4 จาก Ali and Scarr

Clauset, Shalizi และ Newman (2009)เปรียบเทียบคำอธิบายกฎหมายพลังงานกับสมมติฐานทางเลือกโดยใช้การทดสอบอัตราส่วนความน่าจะเป็นและสรุปทั้งการเยี่ยมชมเว็บและลิงก์ "ไม่น่าจะถูกพิจารณาให้เป็นไปตามกฎหมายพลังงาน" ข้อมูลของพวกเขาสำหรับอดีตคือความนิยมเว็บของลูกค้าของบริการ America Online Internet ในวันเดียวและสำหรับหลังคือลิงค์ไปยังเว็บไซต์ที่พบในการรวบรวมข้อมูลเว็บในปี 1997 ประมาณ 200 ล้านหน้าเว็บ ภาพด้านล่างให้ฟังก์ชันการแจกแจงสะสม P (x) และความเป็นไปได้สูงสุดที่กฎหมายกำหนดอำนาจ

ป้อนคำอธิบายรูปภาพที่นี่

สำหรับชุดข้อมูลเหล่านี้ Clauset, Shalizi และ Newman พบว่าการกระจายพลังงานที่มีเลขชี้กำลังแบบเลขชี้กำลังเพื่อปรับเปลี่ยนส่วนท้ายสุดของการกระจายนั้นชัดเจนดีกว่าการแจกแจงกฎพลังงานบริสุทธิ์และการแจกแจงแบบล็อกปกติก็เหมาะสมเช่นกัน (พวกเขายังดูที่เอ็กซ์โปเนนเชียลและยืดสมมติฐานเอ็กซ์โปเนนเชียล)

หากคุณมีชุดข้อมูลในมือและไม่เพียงแค่อยากรู้อยากเห็นคุณควรพอดีกับรุ่นที่แตกต่างกันและเปรียบเทียบ (ใน R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1 ต่ำกว่า tail = FALSE)) ฉันยอมรับว่าฉันไม่มีความคิดเลยว่าจะทำตัวแบบ ZM ที่ปรับค่าได้แบบศูนย์ รอนเพียร์สันบล๊อกเกี่ยวกับการแจกแจง ZMและเห็นได้ชัดว่ามีแพ็กเกจ R zipfR ฉันฉันอาจจะเริ่มต้นด้วยโมเดลทวินามลบ แต่ฉันไม่ใช่นักสถิติที่แท้จริง (และฉันชอบความคิดเห็นของพวกเขา)

(ฉันต้องการผู้วิจารณ์คนที่สอง @richiemorrisroe ด้านบนซึ่งชี้ให้เห็นว่าข้อมูลอาจได้รับอิทธิพลจากปัจจัยที่ไม่เกี่ยวข้องกับพฤติกรรมมนุษย์ของแต่ละบุคคลเช่นโปรแกรมที่รวบรวมข้อมูลเว็บและที่อยู่ IP ที่แสดงคอมพิวเตอร์ของผู้คนจำนวนมาก)

เอกสารที่กล่าวถึง:


@MattBag ดูน่าสนใจจะลองใช้ในกรณีนี้stats.stackexchange.com/q/41286/13201
FredrikD
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.