ฉันสามารถใช้การทดสอบ Kolmogorov-Smirnov และประมาณค่าพารามิเตอร์การกระจายได้หรือไม่


14

ฉันได้อ่านแล้วว่าการทดสอบ Kolmogorov-Smirnov ไม่ควรใช้เพื่อทดสอบความดีของการแจกแจงที่มีการประมาณค่าพารามิเตอร์จากตัวอย่าง

การแยกตัวอย่างของฉันออกเป็นสองส่วนและใช้ครึ่งแรกสำหรับการประมาณค่าพารามิเตอร์และอีกอันสำหรับการทดสอบ KS หรือไม่

ขอบคุณล่วงหน้า


1
คุณต้องการทดสอบเรื่องการกระจาย & ทำไม
gung - Reinstate Monica

ฉันสงสัยว่าข้อมูลตามการแจกแจงเอ็กซ์โพเนนเชียล
sortega

คำตอบ:


13

วิธีที่ดีกว่าคือการคำนวณค่าวิกฤตของ p-value โดยการจำลอง ปัญหาคือเมื่อคุณประเมินพารามิเตอร์จากข้อมูลแทนที่จะใช้ค่าที่ตั้งสมมติฐานแล้วการกระจายตัวของสถิติ KS ไม่เป็นไปตามการแจกแจงโมฆะ

คุณสามารถละเว้นค่า p จากการทดสอบ KS และจำลองชุดข้อมูลจำนวนมากจากการแจกแจงผู้สมัคร (พร้อมชุดพารามิเตอร์ที่มีความหมาย) ที่มีขนาดเท่ากับข้อมูลจริงของคุณ จากนั้นสำหรับแต่ละชุดประเมินพารามิเตอร์และทำการทดสอบ KS โดยใช้พารามิเตอร์ที่ประมาณไว้ คุณ p-value จะเป็นสัดส่วนของสถิติการทดสอบจากชุดจำลองที่มีความต่อเนื่องมากกว่าข้อมูลต้นฉบับของคุณ


2
ฉันพบวิธีแก้ปัญหาเล็กน้อยสับสน (อย่างน้อยสำหรับฉัน); คุณหมายถึงอะไรโดย "ชุดพารามิเตอร์ที่มีความหมาย" สำหรับการแจกแจงผู้สมัคร เริ่มแรกคุณไม่รู้พารามิเตอร์ของการแจกแจงผู้สมัครคุณจะรู้ได้อย่างไรว่า "ชุดพารามิเตอร์ที่มีความหมาย" คืออะไร?
Néstor

คุณสามารถลองชุดของพารามิเตอร์ที่แตกต่างกันเพื่อดูว่ามันสร้างความแตกต่างหรือไม่ (สำหรับปกติมันไม่ได้ แต่การกระจายบางอย่างอาจ) จากนั้นคิดเกี่ยวกับวิทยาศาสตร์ที่อยู่เบื้องหลังข้อมูลของคุณหรือพูดคุยกับผู้เชี่ยวชาญในพื้นที่คุณควรจะได้รับความคิดทั่วไปที่จะเริ่มต้นเช่นฉันรู้ว่าสิ่งที่ความสูงเฉลี่ยของเพศชายผู้ใหญ่ในไนจีเรีย แต่ฉัน ค่อนข้างแน่ใจว่ามันเป็นบวกและน้อยกว่า 3 เมตร
เกร็กสโนว์

@GregSnow ฉันเจอโพสต์นี้เนื่องจากเกี่ยวข้องกับงานปัจจุบันของฉัน ฉันสงสัยว่ามีเหตุผลทางทฤษฎีสำหรับวิธีการที่คุณแนะนำ? เราจะทราบได้อย่างไรว่า "p-value" ที่เสนอนั้นมีการกระจายอย่างสม่ำเสมอจาก 0 ถึง 1 ค่า p ที่เสนอไม่เป็นค่า p ทั่วไปเนื่องจากสมมติฐาน Null ตอนนี้เป็นชุดของการแจกแจง
renrenthehamster

@renrenthehamster คุณมีจุดดีนั่นคือเหตุผลที่ฉันแนะนำให้จำลองสถานการณ์ต่าง ๆ สำหรับดิสทริบิวชันบางตัว (ฉันคาดว่าปกติ) มันจะไม่สำคัญมากนัก แต่บางตัวอาจต้องการการตัดที่แตกต่างกันสำหรับค่าพารามิเตอร์ที่แตกต่างกัน หากเป็นกรณีนั้นผู้ใช้ (คุณ) จำเป็นต้องค้นหา null ที่มีความหมายเพื่อทดสอบซึ่งรวมถึงทั้งรูปร่างของการแจกแจงและชุดหรือช่วงของพารามิเตอร์ที่คุณพอใจ
Greg Snow

1
@LilyLong แบบจำลองที่ใช้ยากและเสียเวลามากขึ้นดังนั้นการทดสอบจึงถูกพัฒนาให้เร็วขึ้น / ง่ายกว่าการจำลองสถานการณ์ตารางแรก ๆ บางส่วนถูกสร้างขึ้นโดยการจำลอง ตอนนี้การทดสอบจำนวนมากสามารถถูกแทนที่ด้วยการจำลองได้อย่างง่ายดาย แต่อาจจะอยู่กับเราไปสักพักเนื่องจากประเพณีและความเรียบง่าย
เกร็กสโนว์

7

การแยกตัวอย่างอาจลดปัญหาการกระจายของสถิติ แต่ไม่ได้ลบออก

ความคิดของคุณหลีกเลี่ยงปัญหาที่การประมาณการจะ 'ใกล้เกินไป' เมื่อเทียบกับค่าประชากรเนื่องจากค่าเหล่านี้ยึดตามตัวอย่างเดียวกัน

คุณไม่ได้หลีกเลี่ยงปัญหาที่พวกเขายังคงประมาณการ การกระจายตัวของสถิติทดสอบไม่ได้เป็นตาราง

ในกรณีนี้มันจะเพิ่มอัตราการปฏิเสธภายใต้ค่า null แทนที่จะลดลงอย่างมาก

ทางเลือกที่ดีกว่าคือการใช้การทดสอบที่ไม่ทราบพารามิเตอร์เช่น Shapiro Wilk

หากคุณแต่งงานกับการทดสอบประเภท Kolmogorov-Smirnov คุณสามารถเข้าสู่การทดสอบของ Lilliefors

นั่นคือการใช้สถิติ KS แต่มีการกระจายตัวของสถิติการทดสอบสะท้อนให้เห็นถึงผลกระทบของการประมาณค่าพารามิเตอร์ - จำลองการกระจายตัวของสถิติการทดสอบภายใต้การประมาณค่าพารามิเตอร์ (ไม่มีการแจกจ่ายอีกต่อไปดังนั้นคุณต้องมีตารางใหม่สำหรับการแจกจ่ายแต่ละรายการ)

http://en.wikipedia.org/wiki/Lilliefors_test

Liliefors ใช้การจำลองสำหรับกรณีปกติและเลขชี้กำลัง แต่คุณสามารถทำได้เพื่อการแจกแจงเฉพาะใด ๆ ในบางสิ่งอย่างเช่น R มันเป็นเรื่องของการจำลอง 10,000 หรือ 100,000 ตัวอย่างและรับการแจกแจงสถิติการทดสอบภายใต้ค่า Null

[อีกทางเลือกหนึ่งอาจจะพิจารณา Anderson-Darling ซึ่งมีปัญหาเดียวกัน แต่ - การตัดสินจากหนังสือโดย D'Agostino และ Stephens ( Goodness-of-fit-techniques ) ดูเหมือนจะไม่ไวต่อมัน คุณสามารถปรับความคิด Lilliefors แต่พวกเขาแนะนำการปรับค่อนข้างง่ายที่ดูเหมือนว่าทำงานค่อนข้างดี]

แต่ยังมีวิธีอื่น ๆ มีครอบครัวของการทดสอบที่ราบรื่นของความดีพอดีเช่น (ดูหนังสือโดย Rayner และ Best) ว่าในบางกรณีสามารถจัดการกับการประมาณค่าพารามิเตอร์ได้

* เอฟเฟกต์ยังคงมีขนาดค่อนข้างใหญ่ - ใหญ่กว่าปกติอาจถือว่าเป็นที่ยอมรับได้ Momo มีสิทธิ์ที่จะแสดงความกังวลเกี่ยวกับเรื่องนี้ หากอัตราความผิดพลาดประเภทที่สูงกว่า (และเส้นโค้งพลังงานประจบ) เป็นปัญหาแล้วนี่อาจไม่เป็นการปรับปรุง!


1
คุณช่วยอธิบายได้อย่างไรว่า "การแยกตัวอย่างจะแก้ปัญหาด้วยการแจกแจงสถิติ" ในความคิดของฉันพารามิเตอร์จะถูกประเมินจากตัวอย่างย่อยและจากนั้นเสียบเข้ากับการทดสอบ KS ของตัวอย่างที่สอง แต่พารามิเตอร์จะยังคงเกี่ยวข้องกับข้อผิดพลาดการสุ่มตัวอย่างที่ไม่ได้รับการพิจารณาในการแจกแจงโมฆะ สิ่งนี้ฟังดูราวกับว่ามีความคิดที่คล้ายกันแยกตัวอย่างจากการแจกแจงแบบปกติประเมินความเบี่ยงเบนมาตรฐานในหนึ่งตัวอย่างและดำเนินการเปรียบเทียบค่าเฉลี่ยกับมาตรฐานปกติแทนที่จะเป็น t-dist ในตัวอย่างที่สอง
Momo

1
@Momo 'แก้ปัญหา' แข็งแกร่งเกินไป 'ลด' ดีกว่า ถ้าพารามิเตอร์จะมีการประเมินจากการสังเกตเดียวกับที่คุณกำลังทดสอบแล้ว - ถ้าคุณบัญชีสำหรับผล - การเบี่ยงเบนของกลุ่มตัวอย่างจากการจำหน่ายจะเป็น 'ขนาดเล็กเกินไป' ที่ - อัตราการปฏิเสธที่จะไปwaayลง การใช้ตัวอย่างอื่นจะลบผลกระทบนั้น ค่าพารามิเตอร์ที่เป็นผลมาจากการประเมินจากตัวอย่างที่สองยังคงประสบข้อผิดพลาดในการสุ่มตัวอย่าง นั่นจะมีผลกระทบต่อการทดสอบ (เพิ่มอัตราความผิดพลาดประเภทที่ 1) แต่จะไม่มีผลการให้น้ำหนักอย่างมากที่ใช้ข้อมูลเดียวกันสำหรับทั้งคู่
Glen_b -Reinstate Monica

@Momo ฉันได้แก้ไขความคิดเห็นของฉันเพื่อลบ 'แก้ปัญหา' และแทนที่ด้วยคำอธิบายบางอย่าง
Glen_b -Reinstate Monica

5

ฉันกลัวว่าจะไม่แก้ปัญหา ฉันเชื่อว่าปัญหาไม่ใช่ว่าพารามิเตอร์นั้นประมาณจากตัวอย่างเดียวกัน แต่มาจากตัวอย่างใด ๆเลย การได้มาของการแจกแจงโมฆะตามปกติของการทดสอบ KS ไม่ได้คำนึงถึงข้อผิดพลาดในการประมาณค่าใด ๆ ในพารามิเตอร์ของการแจกแจงการอ้างอิง แต่เห็นว่าเป็นข้อผิดพลาด ดูเพิ่มเติมDurbin 2516ที่พูดถึงปัญหานี้ในระยะเวลานานและเสนอวิธีแก้ไขปัญหา


1
นี่เป็นปัญหาที่แยกกันสองอย่าง หากคุณใช้ข้อมูลเดียวกันเพื่อประมาณค่าพารามิเตอร์และทำการทดสอบ KS โดยทั่วไปคุณจะเห็นค่า p ที่สูงเกินจริงเนื่องจากคุณปรับการกระจายไปยังข้อมูลก่อนทำการทดสอบ หากคุณใช้ตัวอย่างสองชุดที่เป็นอิสระอย่างไรก็ตามนี่ไม่ใช่กรณีตัวอย่าง อย่างไรก็ตามการประมาณค่าพารามิเตอร์ที่ไม่แม่นยำอาจลดค่า p ที่คุณได้รับในกรณีนี้เพราะตอนนี้คุณกำลังทดสอบการกระจายที่ไม่ถูกต้อง (เล็กน้อย)
fgp
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.