ทดสอบความแตกต่างระหว่างการแจกแจงแบบไม่ต่อเนื่องเชิงประจักษ์ 2 ครั้ง


14

ฉันมีข้อมูลทดสอบที่มีตัวอย่างจำนวนมากจากการกระจายแบบไม่ต่อเนื่องซึ่งฉันใช้เป็นการแจกแจงเชิงประจักษ์ ฉันต้องการทดสอบว่าการแจกแจงนั้นแตกต่างกันจริงหรือไม่และความแตกต่างในค่าเฉลี่ยนั้นสำหรับการแจกแจงที่ต่างกันจริงหรือไม่

เนื่องจากเป็นดิสทริบิวชันแบบไม่ต่อเนื่องความเข้าใจของฉันก็คือการทดสอบ Kolmogorov-Smirnov นั้นไม่ถูกต้องเนื่องจากสมมติฐานการกระจายอย่างต่อเนื่อง การทดสอบ Chi-Squared จะเป็นการทดสอบที่ถูกต้องหรือไม่ว่าการแจกแจงนั้นแตกต่างกันจริงหรือไม่?

ฉันจะใช้การทดสอบใดสำหรับความแตกต่างของค่าเฉลี่ย วิธีที่ดีกว่าคือการสุ่มตัวอย่างจากการแจกแจงและรับความแตกต่างจากนั้นทำการวิเคราะห์การกระจายความแตกต่าง


χ2

ขอบคุณสำหรับความคิดเห็น มีการทดสอบความแตกต่างของค่าเฉลี่ยเมื่อการทดสอบไคสแควร์ยืนยันว่าการแจกแจงนั้นแตกต่างกันหรือไม่?
Wallhood

วิธีที่ดีกว่าคือการสุ่มตัวอย่างจากการแจกแจงและรับความแตกต่างจากนั้นทำการวิเคราะห์ความแตกต่าง
Wallhood

คำตอบ:


13

1) Kolmogorov-Smirnov ยังคงสามารถใช้งานได้ แต่ถ้าคุณใช้ค่าที่สำคัญแบบตารางมันจะเป็นแบบอนุรักษ์นิยม (ซึ่งเป็นปัญหาเพียงอย่างเดียวเพราะมันทำให้เส้นโค้งกำลังของคุณลง) ดีกว่าที่จะได้รับการกระจายการเปลี่ยนแปลงของสถิติเพื่อให้ระดับความสำคัญของคุณเป็นสิ่งที่คุณเลือกให้เป็น สิ่งนี้จะสร้างความแตกต่างอย่างมากหากมีความสัมพันธ์มากมาย การเปลี่ยนแปลงนี้เป็นเรื่องง่ายที่จะใช้ (แต่การทดสอบ KS ไม่ได้เป็นการเปรียบเทียบที่เป็นไปได้เพียงอย่างเดียวหากมีการคำนวณการกระจายการเปลี่ยนแปลงอยู่ดีมีความเป็นไปได้อื่น ๆ )

2) ความดีของวานิลลาไค - สแควร์ของการทดสอบพอดีสำหรับข้อมูลที่ไม่ต่อเนื่องโดยทั่วไปแล้วในใจของฉันความคิดที่ไม่ดีจริงๆ หากการสูญเสียพลังงานที่อาจเกิดขึ้นข้างต้นหยุดคุณโดยใช้การทดสอบ KS ปัญหาของไคสแควร์มักจะแย่กว่ามาก - มันจะโยนข้อมูลที่สำคัญที่สุดออกมาซึ่งเป็นการเรียงลำดับระหว่างหมวดหมู่ (ค่าการสังเกต) ทำให้พลังงาน โดยการแพร่กระจายผ่านทางเลือกอื่น ๆ ที่ไม่พิจารณาการสั่งซื้อดังนั้นจึงเป็นการแย่กว่าในการตรวจหาทางเลือกที่ราบรื่น - เช่นการเปลี่ยนตำแหน่งและมาตราส่วนเป็นต้น) แม้ว่าจะมีผลกระทบที่ไม่ดีจากการเชื่อมต่อที่หนักหน่วงการทดสอบ KS ในหลายกรณียังคงมีพลังที่ดีกว่า (ในขณะที่ยังลดอัตราความผิดพลาด Type I)

ไคสแควร์ยังสามารถปรับเปลี่ยนเพื่อพิจารณาการสั่งซื้อ (แบ่งพาร์ติชัน chisquare ให้เป็นองค์ประกอบเชิงเส้นกำลังสองลูกบาศก์ ฯลฯ ผ่านพหุนามฉากมุมฉากและใช้เฉพาะคำสั่งต่ำเพียงไม่กี่ 4-6 ตัวเลือกทั่วไป) เอกสารโดย Rayner และ Best (และอื่น ๆ ) หารือเกี่ยวกับวิธีการนี้ซึ่งเกิดขึ้นจากการทดสอบที่ราบรื่นของ Neyman-Barton นี่เป็นวิธีการที่ดี แต่ถ้าคุณไม่สามารถใช้ซอฟต์แวร์ได้อาจต้องใช้การตั้งค่าเล็กน้อย

วิธีการแก้ไขทั้งควรจะดี แต่ถ้าคุณจะไม่แก้ไขวิธีการอย่างใดอย่างหนึ่งก็ไม่จำเป็นว่ากรณีที่ไคสแควร์จะดีกว่าการทดสอบ KS - ในบางสถานการณ์มันอาจจะดีกว่า ... หรือ อาจแย่ลงอย่างมาก

หากความสัมพันธ์ไม่หนัก (เช่นมีค่าต่าง ๆ มากมายจากข้อมูล) ฉันจะพิจารณา KS ตามที่เป็นอยู่ หากพวกเขาอยู่ในระดับปานกลางฉันต้องการคำนวณการกระจายตัวของการเปลี่ยนรูป หากพวกเขาหนักมาก (เช่นข้อมูลใช้ค่าที่แตกต่างกันเพียงไม่กี่อย่างเท่านั้น) ไคสแควร์ธรรมดาอาจแข่งขันได้


ขอบคุณสำหรับคำเตือน ฉันจะคำนึงถึงเรื่องนี้เมื่อฉันตัดสินใจใช้การทดสอบ KS หรือ Chi-Squared
Wallhood
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.