หากฉันต้องการมีโอกาส 95% ที่วัตถุน้อยกว่า 1% ผิดฉันต้องมีตัวอย่างจำนวนเท่าใด


9

ฉันต้องแน่ใจว่าแผนผังเว็บไซต์ XML ของฉันมีขยะน้อยกว่า (ลิงก์เสีย) รายการ URL นั้นอยู่ในหลักแสนและแม้ว่าจะเป็นไปได้ที่จะทดสอบพวกเขาทั้งหมด 1 ต่อ 1 ฉันไม่ต้องการด้วยเหตุผลหลายประการ:1%

1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...

ดังนั้นฉันคิดว่าการสุ่มเซตย่อยเพียงพอแล้วปัญหาคือฉันไม่รู้ความน่าจะเป็น

มีฟังก์ชั่นง่าย ๆ ที่ฉันสามารถใช้ได้หรือไม่?

หากช่วยได้เราสามารถสมมติให้มีข้อมูลเบื้องต้นเกี่ยวกับความน่าจะเป็นของลิงก์ที่จะใช้งานไม่ได้ สมมติว่าข้ามการรันจะมีค่าสำหรับการเชื่อมโยงที่กำหนดใด ๆ ที่จะใช้งานไม่ได้0.75%


คุณมี URL กี่อัน (การอนุมานเกี่ยวกับประชากรที่ จำกัด จะค่อนข้างแตกต่างจากกรณีปกติของการอนุมานเกี่ยวกับประชากรที่ไม่มีที่สิ้นสุด)
Kodiologist

?? จำนวน จำกัด แน่นอน
gurghet

นั่นไปโดยไม่บอกอะไร แต่มีจำนวน จำกัด ?
Kodiologist

ในแสนคนทุกวันแตกต่างกันเล็กน้อย
gurghet

เกิดอะไรขึ้นกับแผนผังไซต์ของคุณที่เปลี่ยนแปลง? คุณมีแผนที่เว็บไซต์ที่แตกต่างอย่างสิ้นเชิงในแต่ละวันหรือมีการเพิ่มและลบ URL หรือไม่? หากหลังคุณสามารถติดตามว่ามีการเพิ่มหรือลบออกดังนั้นคุณต้องตรวจสอบใหม่หรือไม่
Kodiologist

คำตอบ:


4

ดังนั้นจึงขึ้นอยู่กับการกระจายความเชื่อเดิมของคุณเกี่ยวกับอัตราการแตกหัก แต่: ประมาณ 3600

import scipy as sp

p = 0.0075
threshold = .01
confidence = .95

f = lambda n: sp.stats.beta(a=n*p, b=n*(1-p)).cdf(threshold) - confidence
print(sp.optimize.fsolve(f, 1000)[0])

>> 3627.45119614

แนวคิดในที่นี้คือการสร้างแบบจำลองการเชื่อมโยงของการแตกในการทดลองใช้ของ Bernoulli และสร้างแบบจำลองความเชื่อของคุณเกี่ยวกับอัตราการแตกหักเป็นการแจกแจงแบบเบต้า การแจกแจงแบบเบต้าเป็นการเชื่อมโยงกับการแจกแจงแบบเบอร์โนลลีและวิธีการอัปเดตการกระจายแบบเบต้าเมื่อคุณเรียกใช้การทดลองใช้นั้นค่อนข้างง่าย:

  • ถ้ามันเป็นความล้มเหลวคุณเพิ่มหนึ่งในพารามิเตอร์แรก α
  • หากประสบความสำเร็จคุณสามารถเพิ่มพารามิเตอร์หนึ่งในพารามิเตอร์ที่สอง β

ดังนั้นถ้าเราเริ่มด้วย เบต้า(0,0)การกระจายและดูความล้มเหลวประมาณ 0.75% ของเวลาการทดลองจะใช้เวลากี่ครั้งก่อนที่ 95% ของมวลการกระจายจะต่ำกว่า 0.01 ประมาณ 3600


หนึ่งในกรณีเหล่านั้นที่การวิเคราะห์แบบเบย์มีเหตุผลมากกว่านี้เพราะก่อนหน้านี้ไม่ได้เป็นเพียงแค่การคาดเดาหรือความตั้งใจที่จะจัดการ แต่บางทีคุณอาจจะกวาดมากกว่าพี พารามิเตอร์พูดจาก 0.5 ถึง 0.9% และพล็อตที่เกี่ยวข้องที่จำเป็น n
David Ernst

1

สำหรับ n ตัวอย่างด้วย พี=0.0075 โอกาสของความล้มเหลวความแปรปรวนของจำนวนความล้มเหลวคือ nพี(1-พี). ดังนั้นการใช้ทฤษฎีขีด จำกัด กลางด้วยZ มาตรฐานทั่วไป

P(ความล้มเหลว<.01n)P(Z<n(.01-พี)nพี(1-พี))P(Z<n0.02898)
ตอนนี้เราต้องการข้างต้นเท่ากับ 95% ซึ่งสอดคล้องกับ Z=1.645. การแก้เพื่อn0.02898=1.645, ฉันเข้าใจ n=3222.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.