เหตุใดค่า p และค่า ks-test จึงลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น ใช้รหัส Python นี้เป็นตัวอย่าง:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
ผลลัพธ์ที่ได้คือ:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
ฉันเข้าใจโดยสัญชาตญาณว่าเมื่อ n เพิ่มขึ้นการทดสอบก็คือ "มั่นใจมากขึ้น" การแจกแจงสองแบบนั้นแตกต่างกัน แต่ถ้าขนาดตัวอย่างมีขนาดใหญ่มากอะไรคือจุดสำคัญในการทดสอบความเหมือนเช่นนี้และบอกว่าการทดสอบ Anderson Darling หรือ t-test เพราะในกรณีเช่นนี้เมื่อ n มีขนาดใหญ่มากการแจกแจงจะถูกพบเสมอ "นัยสำคัญ" ที่แตกต่างกัน! ตอนนี้ฉันสงสัยว่าจุด p-values คืออะไรในโลก มันขึ้นอยู่กับขนาดของกลุ่มตัวอย่างมาก ... ถ้า p> 0.05 และคุณอยากให้มันต่ำกว่าแค่รับข้อมูลเพิ่ม และถ้า p <0.05 และคุณต้องการให้สูงขึ้นเพียงลบข้อมูลบางส่วน
นอกจากนี้หากการแจกแจงสองแบบนั้นเหมือนกันสถิติ ks-test จะเป็น 0 และ p-value 1 แต่ในตัวอย่างของฉันเมื่อ n เพิ่มสถิติ ks-test แสดงให้เห็นว่าการแจกแจงยิ่งคล้ายกับเวลามากขึ้น (ลดลง) แต่ตามค่า p พวกเขาจะมากขึ้นและแตกต่างกับเวลา (ลดลงเช่นกัน)