ฉันได้อ่านแล้วว่าการทดสอบ Kolmogorov-Smirnov ไม่ควรใช้เพื่อทดสอบความดีของการแจกแจงที่มีการประมาณค่าพารามิเตอร์จากตัวอย่าง
การแยกตัวอย่างของฉันออกเป็นสองส่วนและใช้ครึ่งแรกสำหรับการประมาณค่าพารามิเตอร์และอีกอันสำหรับการทดสอบ KS หรือไม่
ขอบคุณล่วงหน้า
ฉันได้อ่านแล้วว่าการทดสอบ Kolmogorov-Smirnov ไม่ควรใช้เพื่อทดสอบความดีของการแจกแจงที่มีการประมาณค่าพารามิเตอร์จากตัวอย่าง
การแยกตัวอย่างของฉันออกเป็นสองส่วนและใช้ครึ่งแรกสำหรับการประมาณค่าพารามิเตอร์และอีกอันสำหรับการทดสอบ KS หรือไม่
ขอบคุณล่วงหน้า
คำตอบ:
วิธีที่ดีกว่าคือการคำนวณค่าวิกฤตของ p-value โดยการจำลอง ปัญหาคือเมื่อคุณประเมินพารามิเตอร์จากข้อมูลแทนที่จะใช้ค่าที่ตั้งสมมติฐานแล้วการกระจายตัวของสถิติ KS ไม่เป็นไปตามการแจกแจงโมฆะ
คุณสามารถละเว้นค่า p จากการทดสอบ KS และจำลองชุดข้อมูลจำนวนมากจากการแจกแจงผู้สมัคร (พร้อมชุดพารามิเตอร์ที่มีความหมาย) ที่มีขนาดเท่ากับข้อมูลจริงของคุณ จากนั้นสำหรับแต่ละชุดประเมินพารามิเตอร์และทำการทดสอบ KS โดยใช้พารามิเตอร์ที่ประมาณไว้ คุณ p-value จะเป็นสัดส่วนของสถิติการทดสอบจากชุดจำลองที่มีความต่อเนื่องมากกว่าข้อมูลต้นฉบับของคุณ
การแยกตัวอย่างอาจลดปัญหาการกระจายของสถิติ แต่ไม่ได้ลบออก
ความคิดของคุณหลีกเลี่ยงปัญหาที่การประมาณการจะ 'ใกล้เกินไป' เมื่อเทียบกับค่าประชากรเนื่องจากค่าเหล่านี้ยึดตามตัวอย่างเดียวกัน
คุณไม่ได้หลีกเลี่ยงปัญหาที่พวกเขายังคงประมาณการ การกระจายตัวของสถิติทดสอบไม่ได้เป็นตาราง
ในกรณีนี้มันจะเพิ่มอัตราการปฏิเสธภายใต้ค่า null แทนที่จะลดลงอย่างมาก
ทางเลือกที่ดีกว่าคือการใช้การทดสอบที่ไม่ทราบพารามิเตอร์เช่น Shapiro Wilk
หากคุณแต่งงานกับการทดสอบประเภท Kolmogorov-Smirnov คุณสามารถเข้าสู่การทดสอบของ Lilliefors
นั่นคือการใช้สถิติ KS แต่มีการกระจายตัวของสถิติการทดสอบสะท้อนให้เห็นถึงผลกระทบของการประมาณค่าพารามิเตอร์ - จำลองการกระจายตัวของสถิติการทดสอบภายใต้การประมาณค่าพารามิเตอร์ (ไม่มีการแจกจ่ายอีกต่อไปดังนั้นคุณต้องมีตารางใหม่สำหรับการแจกจ่ายแต่ละรายการ)
http://en.wikipedia.org/wiki/Lilliefors_test
Liliefors ใช้การจำลองสำหรับกรณีปกติและเลขชี้กำลัง แต่คุณสามารถทำได้เพื่อการแจกแจงเฉพาะใด ๆ ในบางสิ่งอย่างเช่น R มันเป็นเรื่องของการจำลอง 10,000 หรือ 100,000 ตัวอย่างและรับการแจกแจงสถิติการทดสอบภายใต้ค่า Null
[อีกทางเลือกหนึ่งอาจจะพิจารณา Anderson-Darling ซึ่งมีปัญหาเดียวกัน แต่ - การตัดสินจากหนังสือโดย D'Agostino และ Stephens ( Goodness-of-fit-techniques ) ดูเหมือนจะไม่ไวต่อมัน คุณสามารถปรับความคิด Lilliefors แต่พวกเขาแนะนำการปรับค่อนข้างง่ายที่ดูเหมือนว่าทำงานค่อนข้างดี]
แต่ยังมีวิธีอื่น ๆ มีครอบครัวของการทดสอบที่ราบรื่นของความดีพอดีเช่น (ดูหนังสือโดย Rayner และ Best) ว่าในบางกรณีสามารถจัดการกับการประมาณค่าพารามิเตอร์ได้
* เอฟเฟกต์ยังคงมีขนาดค่อนข้างใหญ่ - ใหญ่กว่าปกติอาจถือว่าเป็นที่ยอมรับได้ Momo มีสิทธิ์ที่จะแสดงความกังวลเกี่ยวกับเรื่องนี้ หากอัตราความผิดพลาดประเภทที่สูงกว่า (และเส้นโค้งพลังงานประจบ) เป็นปัญหาแล้วนี่อาจไม่เป็นการปรับปรุง!
ฉันกลัวว่าจะไม่แก้ปัญหา ฉันเชื่อว่าปัญหาไม่ใช่ว่าพารามิเตอร์นั้นประมาณจากตัวอย่างเดียวกัน แต่มาจากตัวอย่างใด ๆเลย การได้มาของการแจกแจงโมฆะตามปกติของการทดสอบ KS ไม่ได้คำนึงถึงข้อผิดพลาดในการประมาณค่าใด ๆ ในพารามิเตอร์ของการแจกแจงการอ้างอิง แต่เห็นว่าเป็นข้อผิดพลาด ดูเพิ่มเติมDurbin 2516ที่พูดถึงปัญหานี้ในระยะเวลานานและเสนอวิธีแก้ไขปัญหา