ฉันมีสองตัวอย่างที่ฉันต้องการทดสอบ (โดยใช้ไพ ธ อน) ถ้าพวกมันถูกดึงออกมาจากการกระจายตัวแบบเดียวกัน ในการทำเช่นนั้นฉันใช้ฟังก์ชันทางสถิติ ks_2samp จาก scipy.stats มันคืนค่า 2 ค่าและฉันพบความยากลำบากในการตีความ ช่วยด้วย!
ฉันมีสองตัวอย่างที่ฉันต้องการทดสอบ (โดยใช้ไพ ธ อน) ถ้าพวกมันถูกดึงออกมาจากการกระจายตัวแบบเดียวกัน ในการทำเช่นนั้นฉันใช้ฟังก์ชันทางสถิติ ks_2samp จาก scipy.stats มันคืนค่า 2 ค่าและฉันพบความยากลำบากในการตีความ ช่วยด้วย!
คำตอบ:
เมื่อ Stijn ชี้ให้เห็นการทดสอบ ks จะส่งกลับค่าสถิติ D และค่า p ที่สอดคล้องกับสถิติ D สถิติ D เป็นระยะทางสูงสุดแน่นอน (supremum) ระหว่าง CDF ของสองตัวอย่าง ยิ่งจำนวนนี้ใกล้ 0 มากเท่าใดก็ยิ่งมีโอกาสมากขึ้นที่ทั้งสองตัวอย่างจะถูกดึงจากการแจกแจงแบบเดียวกัน ตรวจสอบหน้า Wikipedia สำหรับการทดสอบ ks ให้คำอธิบายที่ดี: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
ค่า p ที่ส่งคืนโดยการทดสอบ ks มีการตีความเช่นเดียวกับค่า p อื่น ๆ คุณปฏิเสธสมมติฐานว่างว่าทั้งสองตัวอย่างถูกดึงมาจากการแจกแจงแบบเดียวกันหากค่า p น้อยกว่าระดับนัยสำคัญของคุณ คุณสามารถค้นหาตารางออนไลน์สำหรับการแปลงค่าสถิติ D เป็นค่า p หากคุณสนใจในขั้นตอน
เมื่อทำการค้นหาของ Google สำหรับ ks_2samp ตีแรกคือนี้เว็บไซต์ ในนั้นคุณสามารถเห็นฟังก์ชั่นสเปค:
This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.
Parameters :
a, b : sequence of 1-D ndarrays
two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different
Returns :
D : float, KS statistic
p-value : float, two-tailed p-value