หากฉันต้องการมีโอกาส 95% ที่วัตถุน้อยกว่า 1% ผิดฉันต้องมีตัวอย่างจำนวนเท่าใด

ฉันต้องแน่ใจว่าแผนผังเว็บไซต์ XML ของฉันมีขยะน้อยกว่า (ลิงก์เสีย) รายการ URL นั้นอยู่ในหลักแสนและแม้ว่าจะเป็นไปได้ที่จะทดสอบพวกเขาทั้งหมด 1 ต่อ 1 ฉันไม่ต้องการด้วยเหตุผลหลายประการ: $1\%$

1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...

ดังนั้นฉันคิดว่าการสุ่มเซตย่อยเพียงพอแล้วปัญหาคือฉันไม่รู้ความน่าจะเป็น

มีฟังก์ชั่นง่าย ๆ ที่ฉันสามารถใช้ได้หรือไม่?

หากช่วยได้เราสามารถสมมติให้มีข้อมูลเบื้องต้นเกี่ยวกับความน่าจะเป็นของลิงก์ที่จะใช้งานไม่ได้ สมมติว่าข้ามการรันจะมีค่าสำหรับการเชื่อมโยงที่กำหนดใด ๆ ที่จะใช้งานไม่ได้ $0.75\%$

probability confidence-interval sample-size

— gurghet
แหล่งที่มา

คุณมี URL กี่อัน (การอนุมานเกี่ยวกับประชากรที่ จำกัด จะค่อนข้างแตกต่างจากกรณีปกติของการอนุมานเกี่ยวกับประชากรที่ไม่มีที่สิ้นสุด)

— Kodiologist

?? จำนวน จำกัด แน่นอน

— gurghet

นั่นไปโดยไม่บอกอะไร แต่มีจำนวน จำกัด ?

— Kodiologist

ในแสนคนทุกวันแตกต่างกันเล็กน้อย

— gurghet

เกิดอะไรขึ้นกับแผนผังไซต์ของคุณที่เปลี่ยนแปลง? คุณมีแผนที่เว็บไซต์ที่แตกต่างอย่างสิ้นเชิงในแต่ละวันหรือมีการเพิ่มและลบ URL หรือไม่? หากหลังคุณสามารถติดตามว่ามีการเพิ่มหรือลบออกดังนั้นคุณต้องตรวจสอบใหม่หรือไม่

— Kodiologist

คำตอบ:

ดังนั้นจึงขึ้นอยู่กับการกระจายความเชื่อเดิมของคุณเกี่ยวกับอัตราการแตกหัก แต่: ประมาณ 3600

import scipy as sp

p = 0.0075
threshold = .01
confidence = .95

f = lambda n: sp.stats.beta(a=n*p, b=n*(1-p)).cdf(threshold) - confidence
print(sp.optimize.fsolve(f, 1000)[0])

>> 3627.45119614

แนวคิดในที่นี้คือการสร้างแบบจำลองการเชื่อมโยงของการแตกในการทดลองใช้ของ Bernoulli และสร้างแบบจำลองความเชื่อของคุณเกี่ยวกับอัตราการแตกหักเป็นการแจกแจงแบบเบต้า การแจกแจงแบบเบต้าเป็นการเชื่อมโยงกับการแจกแจงแบบเบอร์โนลลีและวิธีการอัปเดตการกระจายแบบเบต้าเมื่อคุณเรียกใช้การทดลองใช้นั้นค่อนข้างง่าย:

ถ้ามันเป็นความล้มเหลวคุณเพิ่มหนึ่งในพารามิเตอร์แรก $\alpha$
หากประสบความสำเร็จคุณสามารถเพิ่มพารามิเตอร์หนึ่งในพารามิเตอร์ที่สอง $\beta$

ดังนั้นถ้าเราเริ่มด้วย $\text{Beta}(0, 0)$ การกระจายและดูความล้มเหลวประมาณ 0.75% ของเวลาการทดลองจะใช้เวลากี่ครั้งก่อนที่ 95% ของมวลการกระจายจะต่ำกว่า 0.01 ประมาณ 3600

— แอนดี้โจนส์
แหล่งที่มา

หนึ่งในกรณีเหล่านั้นที่การวิเคราะห์แบบเบย์มีเหตุผลมากกว่านี้เพราะก่อนหน้านี้ไม่ได้เป็นเพียงแค่การคาดเดาหรือความตั้งใจที่จะจัดการ แต่บางทีคุณอาจจะกวาดมากกว่า

p

$p$ พารามิเตอร์พูดจาก 0.5 ถึง 0.9% และพล็อตที่เกี่ยวข้องที่จำเป็น

n

$n$

— David Ernst

สำหรับ $n$ ตัวอย่างด้วย $p=0.0075$ โอกาสของความล้มเหลวความแปรปรวนของจำนวนความล้มเหลวคือ $n p (1-p)$ . ดังนั้นการใช้ทฤษฎีขีด จำกัด กลางด้วย $Z$ มาตรฐานทั่วไป

\begin{aligned} P (ความล้มเหลว < .01 n) \approx P (Z < \frac{n (.01 - พี)}{\sqrt{n พี (1 - พี)}}) \approx P (Z < \sqrt{n} 0.02898) \end{aligned}

$\begin{align*} \mathbb{P}(\text{failures} < .01 n) \approx \mathbb{P}(Z < \frac{n (.01 - p)}{\sqrt{n p (1-p)}}) \approx \mathbb{P}(Z < \sqrt{n} .02898) \end{align*}$ ตอนนี้เราต้องการข้างต้นเท่ากับ 95% ซึ่งสอดคล้องกับ

Z = 1.645

$Z = 1.645$ . การแก้เพื่อ

\sqrt{n} .02898 = 1.645

$\sqrt{n} .02898 = 1.645$ , ฉันเข้าใจ

n = 3222

$n=3222$ .

— jackkamm
แหล่งที่มา