ฉันได้เขียนโปรแกรมที่สร้างข้อมูลแบบสุ่ม หากโปรแกรมทำงานอย่างถูกต้องข้อมูลนั้นควรเป็นไปตามการแจกแจงความน่าจะเป็นที่ทราบ ฉันต้องการรันโปรแกรมทำการคำนวณผลและคิดค่า p
ก่อนใครบอกว่า: ฉันเข้าใจว่าการทดสอบสมมติฐานไม่สามารถตรวจพบเมื่อโปรแกรมทำงานอย่างถูกต้อง สามารถตรวจพบได้เมื่อทำงานไม่ถูกต้องในวิธีเฉพาะ (และถึงตอนนั้นการทดสอบ "ควร" ล้มเหลว X% ของเวลาขึ้นอยู่กับระดับความสำคัญที่คุณเลือก ... )
ดังนั้นฉันพยายามทำความเข้าใจว่าเครื่องมือใดที่เหมาะสม โดยเฉพาะอย่างยิ่ง:
ฉันสามารถสร้างข้อมูลสุ่มได้มากเท่าที่ต้องการ สิ่งที่ฉันต้องทำก็คือปล่อยให้โปรแกรมทำงานนานพอ ดังนั้นฉันจึงไม่ จำกัด ขนาดตัวอย่างเฉพาะใด ๆ
ฉันสนใจในเทคนิคที่สร้างค่า p ดังนั้นการจ้องมองที่กราฟและพูดว่า "ใช่ที่ดูเหมือนเชิงเส้นเชิงเส้น" ไม่ใช่ตัวเลือกที่น่าสนใจ เว้นแต่จะมีวิธีการใส่ตัวเลขจำนวนมากลงใน "ความไร้ประโยชน์" ของกราฟ ;-)
สิ่งที่ฉันรู้จนถึงตอนนี้:
ฉันได้เห็นสามประเภทหลักของการทดสอบที่กล่าวถึงซึ่งดูเหมือนว่าพวกเขาจะสามารถใช้งานได้: [เพียร์สัน] การทดสอบไคสแควร์, การทดสอบ Kolmogorov-Smirnov และการทดสอบ Anderson-Darling
ปรากฏว่าการทดสอบไคสแควร์เป็นที่เหมาะสมสำหรับต่อเนื่องกระจายในขณะที่อีกสองคนที่มีความเหมาะสมมากขึ้นสำหรับการอย่างต่อเนื่องกระจาย (?)
แหล่งข้อมูลหลายแห่งระบุว่าการทดสอบโฆษณานั้น "ดีกว่า" กว่าการทดสอบ KS แต่ไม่สามารถระบุรายละเอียดเพิ่มเติมได้
ในที่สุดการทดสอบทั้งหมดเหล่านี้น่าจะตรวจพบ "วิธีที่แตกต่าง" ของการเบี่ยงเบนจากการแจกแจงโมฆะที่ระบุ แต่ฉันไม่รู้จริง ๆ ว่าความแตกต่างยังเป็นอย่างไร ... โดยสรุปฉันกำลังมองหาคำอธิบายทั่วไปที่ใช้กับการทดสอบแต่ละประเภทได้ดีที่สุดและปัญหาที่ตรวจพบได้ดีที่สุด