เราได้ทำการทดสอบสมมติฐานทางสถิติสองสามประเภทซึ่งหนึ่งในนั้นคือการทดสอบแบบจำลองไคสแควร์ที่เหมาะสม - การทดสอบไคสแควร์ของจำนวนตัวอย่างในถังขยะที่พิจารณาจากค่าผกผันของ CDF ของการแจกแจงความน่าจะเป็น ตัวอย่างเช่นเพื่อทดสอบการสร้างตัวอย่างการแจกจ่าย Cauchy ฉันใช้งานบางอย่าง
with(Statistics):
infolevel[Statistics] := 1:
distribution := CauchyDistribution(2, 3):
sample := Sample(distribution, 10^6):
ChiSquareSuitableModelTest(sample, distribution, 'bins' = 100, 'level' = 0.001);
เนื่องจากฉันสามารถสร้างตัวอย่างได้มากเท่าที่ฉันต้องการฉันสามารถทำให้ค่อนข้างเล็กได้α
สำหรับการแจกแจงที่มีช่วงเวลาที่ จำกัด ฉันคำนวณจำนวนช่วงเวลาตัวอย่างในมือข้างหนึ่งและอีกนัยหนึ่งฉันคำนวณสัญลักษณ์ช่วงเวลาการแจกแจงที่สอดคล้องกันและข้อผิดพลาดมาตรฐานของพวกเขา ดังนั้นสำหรับเช่นการกระจายเบต้า:
with(Statistics):
distribution := BetaDistribution(2, 3):
distributionMoments := Moment~(distribution, [seq(1 .. 10)]);
standardErrors := StandardError[10^6]~(Moment, distribution, [seq(1..10)]);
evalf(distributionMoments /~ standardErrors);
นี่แสดงรายการของตัวเลขที่ลดลงซึ่งสุดท้ายคือ 255.1085766 ดังนั้นแม้ขณะที่ 10 ค่าของช่วงเวลาที่เป็นมากกว่า 250 ครั้งมูลค่าของข้อผิดพลาดมาตรฐานของช่วงเวลาตัวอย่างสำหรับตัวอย่างที่มีขนาดที่ 6 ซึ่งหมายความว่าฉันสามารถใช้การทดสอบที่ทำงานมากหรือน้อยดังนี้106
with(Statistics):
sample := Sample(BetaDistribution(2, 3), 10^6):
sampleMoments := map2(Moment, sample, [seq(1 .. 10)]);
distributionMoments := [2/5, 1/5, 4/35, 1/14, 1/21, 1/30, 4/165, 1/55, 2/143, 1/91];
standardErrors :=
[1/5000, 1/70000*154^(1/2), 1/210000*894^(1/2), 1/770000*7755^(1/2),
1/54600*26^(1/2), 1/210000*266^(1/2), 7/5610000*2771^(1/2),
1/1567500*7809^(1/2), 3/5005000*6685^(1/2), 1/9209200*157366^(1/2)];
deviations := abs~(sampleMoments - distributionMoments) /~ standardErrors;
ตัวเลขในdistributionMoments
และstandardErrors
มาจากการเรียกใช้ครั้งแรกข้างต้น ตอนนี้ถ้าการสร้างตัวอย่างถูกต้องตัวเลขในส่วนเบี่ยงเบนควรจะค่อนข้างเล็ก ฉันถือว่าพวกมันกระจายตามปกติ (ซึ่งไม่ใช่จริง ๆ แต่ใกล้เข้ามามากพอ - จำได้ว่านี่เป็นช่วงเวลาตัวอย่างที่ปรับขนาดแล้วไม่ใช่ตัวอย่าง) และดังนั้นฉันจึงสามารถยกตัวอย่างกรณีที่ส่วนเบี่ยงเบน มากกว่า 4 - สอดคล้องกับช่วงเวลาตัวอย่างที่เบี่ยงเบนข้อผิดพลาดมาตรฐานมากกว่าช่วงเวลาการแจกแจงมากกว่าสี่เท่า สิ่งนี้ไม่น่าจะเกิดขึ้นแบบสุ่มถ้าการสร้างตัวอย่างดี ในอีกทางหนึ่งถ้าช่วงเวลาตัวอย่าง 10 ช่วงแรกตรงกับช่วงเวลาการกระจายภายในไม่ถึงครึ่งเปอร์เซ็นต์เรามีการประมาณที่ดีพอสมควรสำหรับการแจกแจง