ไม่ผู้เยี่ยมชมเว็บไซต์ที่ไม่ซ้ำกันไม่ปฏิบัติตามกฎหมายด้านพลังงาน
ในช่วงไม่กี่ปีที่ผ่านมามีการเพิ่มความเข้มงวดในการทดสอบการอ้างสิทธิ์กฎหมายพลังงาน (เช่น Clauset, Shalizi และ Newman 2009) เห็นได้ชัดว่าการอ้างสิทธิ์ที่ผ่านมามักจะไม่ได้รับการทดสอบอย่างดีและเป็นเรื่องธรรมดาที่จะวางแผนข้อมูลในระดับล็อก - ล็อกและใช้ "การทดสอบลูกตา" เพื่อแสดงเส้นตรง ตอนนี้การทดสอบที่เป็นทางการเป็นเรื่องธรรมดามากขึ้นการกระจายจำนวนมากกลายเป็นว่าไม่ปฏิบัติตามกฎหมายพลังงาน
การอ้างอิงสองข้อที่ดีที่สุดที่ฉันรู้ว่าการตรวจสอบการเยี่ยมชมของผู้ใช้บนเว็บคือ Ali and Scarr (2007) และ Clauset, Shalizi และ Newman (2009)
Ali and Scarr (2007)ดูตัวอย่างแบบสุ่มของผู้ใช้คลิกบนเว็บไซต์ Yahoo และสรุป:
ภูมิปัญญาที่เหนือกว่าคือการกระจายตัวของการคลิกบนเว็บและการดูหน้าเว็บเป็นไปตามการกระจายกฎหมายพลังงานแบบไร้ขอบเขต อย่างไรก็ตามเราพบว่าคำอธิบายข้อมูลที่ดีกว่าอย่างมีนัยสำคัญทางสถิติคือการกระจาย Zipf - Mandelbrot ที่มีความไวต่อขนาดและการผสมของมันจะช่วยเพิ่มความกระชับ การวิเคราะห์ก่อนหน้านี้มีข้อเสียสามประการ: พวกเขาใช้ชุดเล็ก ๆ ของการกระจายตัวของผู้สมัคร, วิเคราะห์พฤติกรรมเว็บผู้ใช้ที่ล้าสมัย (ประมาณปี 1998) และใช้วิธีการทางสถิติที่น่าสงสัย แม้ว่าเราไม่สามารถแยกแยะได้ว่าการกระจายตัวเหมาะสมไม่อาจพบได้ในหนึ่งวัน แต่เราสามารถพูดได้อย่างแน่นอนว่าการกระจาย Zipf-Mandelbrot ที่ไวต่อสเกลนั้นให้ข้อมูลที่มีความแข็งแกร่งทางสถิติมากกว่าการใช้พลังงานแบบไร้กฎหรือ Zipf ความหลากหลายของแนวดิ่งจากโดเมน Yahoo
นี่คือฮิสโตแกรมของผู้ใช้แต่ละรายคลิกไปเดือนและข้อมูลเดียวกันของพวกเขาในพล็อตการบันทึกล็อกด้วยรูปแบบที่แตกต่างกันพวกเขาเปรียบเทียบ ข้อมูลไม่ชัดเจนในสายบันทึกการทำงานแบบตรงซึ่งคาดว่าจะได้รับจากการจ่ายพลังงานที่ไม่มีขนาด
Clauset, Shalizi และ Newman (2009)เปรียบเทียบคำอธิบายกฎหมายพลังงานกับสมมติฐานทางเลือกโดยใช้การทดสอบอัตราส่วนความน่าจะเป็นและสรุปทั้งการเยี่ยมชมเว็บและลิงก์ "ไม่น่าจะถูกพิจารณาให้เป็นไปตามกฎหมายพลังงาน" ข้อมูลของพวกเขาสำหรับอดีตคือความนิยมเว็บของลูกค้าของบริการ America Online Internet ในวันเดียวและสำหรับหลังคือลิงค์ไปยังเว็บไซต์ที่พบในการรวบรวมข้อมูลเว็บในปี 1997 ประมาณ 200 ล้านหน้าเว็บ ภาพด้านล่างให้ฟังก์ชันการแจกแจงสะสม P (x) และความเป็นไปได้สูงสุดที่กฎหมายกำหนดอำนาจ
สำหรับชุดข้อมูลเหล่านี้ Clauset, Shalizi และ Newman พบว่าการกระจายพลังงานที่มีเลขชี้กำลังแบบเลขชี้กำลังเพื่อปรับเปลี่ยนส่วนท้ายสุดของการกระจายนั้นชัดเจนดีกว่าการแจกแจงกฎพลังงานบริสุทธิ์และการแจกแจงแบบล็อกปกติก็เหมาะสมเช่นกัน (พวกเขายังดูที่เอ็กซ์โปเนนเชียลและยืดสมมติฐานเอ็กซ์โปเนนเชียล)
หากคุณมีชุดข้อมูลในมือและไม่เพียงแค่อยากรู้อยากเห็นคุณควรพอดีกับรุ่นที่แตกต่างกันและเปรียบเทียบ (ใน R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1 ต่ำกว่า tail = FALSE)) ฉันยอมรับว่าฉันไม่มีความคิดเลยว่าจะทำตัวแบบ ZM ที่ปรับค่าได้แบบศูนย์ รอนเพียร์สันบล๊อกเกี่ยวกับการแจกแจง ZMและเห็นได้ชัดว่ามีแพ็กเกจ R zipfR ฉันฉันอาจจะเริ่มต้นด้วยโมเดลทวินามลบ แต่ฉันไม่ใช่นักสถิติที่แท้จริง (และฉันชอบความคิดเห็นของพวกเขา)
(ฉันต้องการผู้วิจารณ์คนที่สอง @richiemorrisroe ด้านบนซึ่งชี้ให้เห็นว่าข้อมูลอาจได้รับอิทธิพลจากปัจจัยที่ไม่เกี่ยวข้องกับพฤติกรรมมนุษย์ของแต่ละบุคคลเช่นโปรแกรมที่รวบรวมข้อมูลเว็บและที่อยู่ IP ที่แสดงคอมพิวเตอร์ของผู้คนจำนวนมาก)
เอกสารที่กล่าวถึง: