การทดสอบ Kolmogorov-Smirnov ใช้ได้กับการแจกแจงแบบแยกหรือไม่?


29

ฉันกำลังเปรียบเทียบตัวอย่างและตรวจสอบว่ามันกระจายเป็นแบบกระจายแยกหรือไม่ อย่างไรก็ตามฉันไม่แน่ใจอย่างมั่นใจว่า Kolmogorov-Smirnov ใช้งานได้ ดูเหมือนว่าWikipediaจะบอกเป็นนัยว่าไม่เป็นเช่นนั้น หากไม่เป็นเช่นนั้นฉันจะทดสอบการกระจายตัวตัวอย่างได้อย่างไร


+1 ตัวอย่างที่สวยงามของการใช้การทดสอบ KS กับข้อมูลที่มีความสัมพันธ์ (มาก) อย่างไม่เหมาะสมนั้นได้รับไว้ในหน้าความช่วยเหลือสำหรับสถิติ Add-on ของ Excel ที่real-statistics.com/non-parametric-tests/goodness-of-fit- การทดสอบ / ... ผลลัพธ์ไม่ถูกต้องด้วยเหตุผลหลายประการ คำเตือนนักแสดง!
whuber

มีการทดสอบ KS สำหรับการแจกแจงโมฆะแบบไม่ต่อเนื่องที่มีอยู่: en.wikipedia.org/wiki/…
Astrid

คำตอบ:


14

มันใช้ไม่ได้กับการกระจายแบบไม่ต่อเนื่อง ดูhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htmยกตัวอย่าง

มีเหตุผลอะไรบ้างที่คุณไม่สามารถใช้การทดสอบความพอดีกับไคสแควร์ได้? ดูhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htmสำหรับข้อมูลเพิ่มเติม


ขออภัยสำหรับการบุกรุก แต่ฉันไม่เข้าใจจริง ๆ ว่าทำไมจึงใช้ได้เฉพาะกับการกระจายอย่างต่อเนื่อง (KS และการทดสอบการตรวจสอบอื่น ๆ ) ใครสามารถอธิบายความจริงข้อนี้ให้ฉันได้บ้าง
Maurizio

6
ααα

มีการทดสอบ KS แบบแยก: stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf
Astrid

7

มักจะเป็นกรณีในสถิติ, มันขึ้นอยู่กับสิ่งที่คุณหมาย

  1. หากคุณหมายถึง "ฉันคำนวณสถิติการทดสอบของฉันในตัวอย่างที่ดึงมาจากการแจกแจงแบบไม่ต่อเนื่องแล้วค้นหาตารางมาตรฐาน" จากนั้นคุณจะได้รับอัตราความผิดพลาดประเภทที่ 1 ที่แท้จริงที่ต่ำกว่าที่คุณเลือก

    ราคาขึ้นอยู่กับ "ความไม่ต่อเนื่อง" หากความน่าจะเป็นของผลใด ๆ ที่อยู่ในระดับค่อนข้างต่ำ (ดังนั้นสัดส่วนของค่าที่เชื่อมโยงกันในข้อมูลนั้นคาดว่าจะอยู่ในระดับต่ำ) มันจะไม่สำคัญมากนัก - หลายคนคงไม่มีปัญหาในการใช้ 5 ทดสอบ% ที่ 4.5% พูด ตัวอย่างเช่นหากคุณกำลังทดสอบเครื่องแบบไม่ต่อเนื่องใน [1,1000] คุณอาจไม่ต้องกังวล

    แต่ถ้ามีความน่าจะเป็นสูงที่ค่าจะถูกผูกไว้ผลของอัตราความผิดพลาดประเภทที่ 1 จะถูกทำเครื่องหมายไว้ หากคุณได้ระดับนัยสำคัญ 0.005 เมื่อคุณต้องการ 0.05 นั่นอาจเป็นปัญหาเนื่องจากมันจะส่งผลกระทบต่อพลังงาน

  2. หากคุณหมายถึง "ฉันคำนวณสถิติการทดสอบของฉันในตัวอย่างที่ดึงมาจากการกระจายแบบไม่ต่อเนื่องแล้วใช้ค่าวิกฤตที่เหมาะสม / คำนวณค่า p ที่เหมาะสมสำหรับสถานการณ์ของฉัน" (เช่นผ่านการทดสอบการเปลี่ยนรูป) ตัวอย่างจากนั้นทำการทดสอบ แน่นอนที่ถูกต้องในแง่ที่ว่าคุณจะได้รับประเภทสิทธิอัตราความผิดพลาดฉัน - ถึง discreteness ของสถิติทดสอบตัวเองแน่นอน (แม้ว่าอาจมีการทดสอบที่ดีขึ้นสำหรับวัตถุประสงค์เฉพาะของคุณเช่นเดียวกับที่มักจะเป็นในกรณีต่อเนื่อง)

    โปรดทราบว่าการกระจายตัวของสถิติทดสอบนั้นไม่มีการแจกฟรีอีกต่อไป แต่การทดสอบเรียงสับเปลี่ยนหลีกเลี่ยงปัญหานั้น

ดังนั้นบางครั้งมันก็โอเคที่จะใช้ตารางมาตรฐานแม้จะมีการแจกแจงแบบไม่ต่อเนื่องและแม้ว่ามันจะไม่เป็นไรก็ตามสถิติการทดสอบก็ไม่มากเท่าค่าวิกฤต / ค่า p ที่คุณใช้กับปัญหา


ตามปกติของ Glen คำตอบของคุณมีคุณภาพสูง แต่บางทีส่วนที่ดีที่สุดเกี่ยวกับเรื่องนี้ก็คือคุณได้สะท้อนเรื่องตลกที่ฉันทำไว้ในบทความนี้เกี่ยวกับนักสถิติที่พูดว่า "มันขึ้นอยู่กับ"! stats.stackexchange.com/questions/182442/…
Sycorax พูดว่า Reinstate Monica

1
@ user777 ที่ไม่ได้ตั้งใจ มันทำให้ฉันสนุกและฉันก็คิดว่าฉันอ่านคำถามนี้ "ดีขึ้นอยู่กับ" ... ดังนั้นฉันแน่ใจว่าจะพูดอย่างชัดเจนเพื่อสะท้อนโพสต์ของคุณ
Glen_b -Reinstate Monica

1
ตอนเย็นของฉันดีขึ้น ไชโย!
Sycorax พูดว่า Reinstate Monica

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.