การทดสอบ Kolmogorov – Smirnov: ค่า p-value และ ks-test ลดลงเมื่อขนาดของกลุ่มตัวอย่างเพิ่มขึ้น


12

เหตุใดค่า p และค่า ks-test จึงลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น ใช้รหัส Python นี้เป็นตัวอย่าง:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

ผลลัพธ์ที่ได้คือ:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

ฉันเข้าใจโดยสัญชาตญาณว่าเมื่อ n เพิ่มขึ้นการทดสอบก็คือ "มั่นใจมากขึ้น" การแจกแจงสองแบบนั้นแตกต่างกัน แต่ถ้าขนาดตัวอย่างมีขนาดใหญ่มากอะไรคือจุดสำคัญในการทดสอบความเหมือนเช่นนี้และบอกว่าการทดสอบ Anderson Darling หรือ t-test เพราะในกรณีเช่นนี้เมื่อ n มีขนาดใหญ่มากการแจกแจงจะถูกพบเสมอ "นัยสำคัญ" ที่แตกต่างกัน! ตอนนี้ฉันสงสัยว่าจุด p-values ​​คืออะไรในโลก มันขึ้นอยู่กับขนาดของกลุ่มตัวอย่างมาก ... ถ้า p> 0.05 และคุณอยากให้มันต่ำกว่าแค่รับข้อมูลเพิ่ม และถ้า p <0.05 และคุณต้องการให้สูงขึ้นเพียงลบข้อมูลบางส่วน

นอกจากนี้หากการแจกแจงสองแบบนั้นเหมือนกันสถิติ ks-test จะเป็น 0 และ p-value 1 แต่ในตัวอย่างของฉันเมื่อ n เพิ่มสถิติ ks-test แสดงให้เห็นว่าการแจกแจงยิ่งคล้ายกับเวลามากขึ้น (ลดลง) แต่ตามค่า p พวกเขาจะมากขึ้นและแตกต่างกับเวลา (ลดลงเช่นกัน)


ดูการทดสอบความปกติเป็น 'ไร้ประโยชน์เป็นหลัก' หรือไม่? . โปรดทราบว่าสิ่งที่คุณพูดไม่เป็นความจริง: ถ้าการแจกแจงนั้นเหมือนกันการกระจายของ p-value ยังคงเหมือนเดิมแม้ในขณะที่คุณเพิ่มขนาดตัวอย่าง
Scortchi - Reinstate Monica

2
ฉันมีปัญหาที่อาจเกี่ยวข้องกับสิ่งนี้: stats.stackexchange.com/questions/301628/…สิ่งนี้ทำให้ฉันสงสัยอย่างมากเกี่ยวกับการทดสอบนี้
Aleksandar Jovanovic

จริงอยู่ที่มีข้อมูลเพียงพอคุณสามารถแสดงให้เห็นว่าขนาดของเอฟเฟกต์เล็ก แต่ไม่เป็นศูนย์นั้นมีความสำคัญทางสถิติ กุญแจสำคัญในที่นี้คือจดจำความแตกต่างระหว่างนัยสำคัญทางสถิติและนัยสำคัญทางปฏิบัติ หากต้องการอ้างโฮเมอร์ซิมป์สันในทางที่ผิด "คุณสามารถใช้ค่า p เพื่อพิสูจน์สิ่งที่เป็นจริงจากระยะไกล"
โรงไฟฟ้านิวเคลียร์วัง

คำตอบ:


5

สถิติการทดสอบลดลงเนื่องจากการแจกแจงของคุณคล้ายกันมากและกลุ่มตัวอย่างขนาดใหญ่มีเสียงรบกวนน้อยลง ถ้าคุณจะเปรียบเทียบการแจกแจงตามทฤษฎีทั้งสองที่คุณใช้คุณควรได้สถิติ KS ที่ "ถูกต้อง" เมื่อคุณเพิ่มข้อมูลเพิ่มเติมสถิติ KS โดยประมาณของคุณควรเข้าใกล้คุณค่าที่แท้จริงนี้ อย่างไรก็ตามแม้ว่าสถิติ KS ของคุณจะลดลงความเชื่อมั่นของคุณก็เพิ่มขึ้นว่าในความเป็นจริงนั้นมีการแจกแจงที่แตกต่างกันสองแบบ (เช่นการลดค่า p) เพราะคุณมีความมั่นใจมากขึ้นในการประเมินการกระจายตัวแต่ละรายการ


3

ในบันทึกจริง: การรับข้อมูลเพิ่มเติมไม่ใช่เรื่องง่าย (ฉันต้องการมัน) การนำข้อมูลเพียงเพื่อให้ได้ -value ที่คุณต้องการคือการทุจริตทางวิชาการและถ้าคุณได้รับการติดคุณจะมีปัญหาp

อย่างไรก็ตามคุณมีสิทธิ์ที่ด้วยตัวเองจะมีค่า จำกัด ที่ดีที่สุดมันเป็นเพียงจุดเริ่มต้นของการวิเคราะห์และไม่ใช่จุดจบ สำหรับข้อมูลเพิ่มเติมโปรดดูที่คำสั่งโดย ASA บน -values pp


ขอบคุณสำหรับการอ้างอิง แต่ฉันก็ยังไม่แน่ใจว่าทำไมสถิติการทดสอบ ks ลด n มากขึ้น
Oliver Angelil
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.