ฉันกำลังเปรียบเทียบตัวอย่างและตรวจสอบว่ามันกระจายเป็นแบบกระจายแยกหรือไม่ อย่างไรก็ตามฉันไม่แน่ใจอย่างมั่นใจว่า Kolmogorov-Smirnov ใช้งานได้ ดูเหมือนว่าWikipediaจะบอกเป็นนัยว่าไม่เป็นเช่นนั้น หากไม่เป็นเช่นนั้นฉันจะทดสอบการกระจายตัวตัวอย่างได้อย่างไร
ฉันกำลังเปรียบเทียบตัวอย่างและตรวจสอบว่ามันกระจายเป็นแบบกระจายแยกหรือไม่ อย่างไรก็ตามฉันไม่แน่ใจอย่างมั่นใจว่า Kolmogorov-Smirnov ใช้งานได้ ดูเหมือนว่าWikipediaจะบอกเป็นนัยว่าไม่เป็นเช่นนั้น หากไม่เป็นเช่นนั้นฉันจะทดสอบการกระจายตัวตัวอย่างได้อย่างไร
คำตอบ:
มันใช้ไม่ได้กับการกระจายแบบไม่ต่อเนื่อง ดูhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htmยกตัวอย่าง
มีเหตุผลอะไรบ้างที่คุณไม่สามารถใช้การทดสอบความพอดีกับไคสแควร์ได้? ดูhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htmสำหรับข้อมูลเพิ่มเติม
มักจะเป็นกรณีในสถิติ, มันขึ้นอยู่กับสิ่งที่คุณหมาย
หากคุณหมายถึง "ฉันคำนวณสถิติการทดสอบของฉันในตัวอย่างที่ดึงมาจากการแจกแจงแบบไม่ต่อเนื่องแล้วค้นหาตารางมาตรฐาน" จากนั้นคุณจะได้รับอัตราความผิดพลาดประเภทที่ 1 ที่แท้จริงที่ต่ำกว่าที่คุณเลือก
ราคาขึ้นอยู่กับ "ความไม่ต่อเนื่อง" หากความน่าจะเป็นของผลใด ๆ ที่อยู่ในระดับค่อนข้างต่ำ (ดังนั้นสัดส่วนของค่าที่เชื่อมโยงกันในข้อมูลนั้นคาดว่าจะอยู่ในระดับต่ำ) มันจะไม่สำคัญมากนัก - หลายคนคงไม่มีปัญหาในการใช้ 5 ทดสอบ% ที่ 4.5% พูด ตัวอย่างเช่นหากคุณกำลังทดสอบเครื่องแบบไม่ต่อเนื่องใน [1,1000] คุณอาจไม่ต้องกังวล
แต่ถ้ามีความน่าจะเป็นสูงที่ค่าจะถูกผูกไว้ผลของอัตราความผิดพลาดประเภทที่ 1 จะถูกทำเครื่องหมายไว้ หากคุณได้ระดับนัยสำคัญ 0.005 เมื่อคุณต้องการ 0.05 นั่นอาจเป็นปัญหาเนื่องจากมันจะส่งผลกระทบต่อพลังงาน
หากคุณหมายถึง "ฉันคำนวณสถิติการทดสอบของฉันในตัวอย่างที่ดึงมาจากการกระจายแบบไม่ต่อเนื่องแล้วใช้ค่าวิกฤตที่เหมาะสม / คำนวณค่า p ที่เหมาะสมสำหรับสถานการณ์ของฉัน" (เช่นผ่านการทดสอบการเปลี่ยนรูป) ตัวอย่างจากนั้นทำการทดสอบ แน่นอนที่ถูกต้องในแง่ที่ว่าคุณจะได้รับประเภทสิทธิอัตราความผิดพลาดฉัน - ถึง discreteness ของสถิติทดสอบตัวเองแน่นอน (แม้ว่าอาจมีการทดสอบที่ดีขึ้นสำหรับวัตถุประสงค์เฉพาะของคุณเช่นเดียวกับที่มักจะเป็นในกรณีต่อเนื่อง)
โปรดทราบว่าการกระจายตัวของสถิติทดสอบนั้นไม่มีการแจกฟรีอีกต่อไป แต่การทดสอบเรียงสับเปลี่ยนหลีกเลี่ยงปัญหานั้น
ดังนั้นบางครั้งมันก็โอเคที่จะใช้ตารางมาตรฐานแม้จะมีการแจกแจงแบบไม่ต่อเนื่องและแม้ว่ามันจะไม่เป็นไรก็ตามสถิติการทดสอบก็ไม่มากเท่าค่าวิกฤต / ค่า p ที่คุณใช้กับปัญหา