จะตีความค่า p ของการทดสอบ Kolmogorov-Smirnov (python) ได้อย่างไร?


30

ฉันมีสองตัวอย่างที่ฉันต้องการทดสอบ (โดยใช้ไพ ธ อน) ถ้าพวกมันถูกดึงออกมาจากการกระจายตัวแบบเดียวกัน ในการทำเช่นนั้นฉันใช้ฟังก์ชันทางสถิติ ks_2samp จาก scipy.stats มันคืนค่า 2 ค่าและฉันพบความยากลำบากในการตีความ ช่วยด้วย!

คำตอบ:


23

เมื่อ Stijn ชี้ให้เห็นการทดสอบ ks จะส่งกลับค่าสถิติ D และค่า p ที่สอดคล้องกับสถิติ D สถิติ D เป็นระยะทางสูงสุดแน่นอน (supremum) ระหว่าง CDF ของสองตัวอย่าง ยิ่งจำนวนนี้ใกล้ 0 มากเท่าใดก็ยิ่งมีโอกาสมากขึ้นที่ทั้งสองตัวอย่างจะถูกดึงจากการแจกแจงแบบเดียวกัน ตรวจสอบหน้า Wikipedia สำหรับการทดสอบ ks ให้คำอธิบายที่ดี: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

ค่า p ที่ส่งคืนโดยการทดสอบ ks มีการตีความเช่นเดียวกับค่า p อื่น ๆ คุณปฏิเสธสมมติฐานว่างว่าทั้งสองตัวอย่างถูกดึงมาจากการแจกแจงแบบเดียวกันหากค่า p น้อยกว่าระดับนัยสำคัญของคุณ คุณสามารถค้นหาตารางออนไลน์สำหรับการแปลงค่าสถิติ D เป็นค่า p หากคุณสนใจในขั้นตอน


ขอบคุณสำหรับคำตอบ. ที่จริงแล้วฉันรู้ความหมายของ 2 ค่า D และ P-value แต่ฉันไม่เห็นความสัมพันธ์ระหว่างพวกเขา ฉันจะกำหนดระดับนัยสำคัญได้อย่างไร คุณสามารถให้ลิงค์สำหรับการแปลงค่าสถิติ D เป็นค่า p ได้หรือไม่
Meri

แน่นอนว่าตารางสำหรับการแปลง D stat เป็น p-value: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf
CrossValidatedTrading

@CrossValidatedTrading: ลิงก์ของคุณไปยังตาราง D-stat-to-p-value คือ 404 ในขณะนี้
james.garriss

@CrossValidatedTrading ควรมีความสัมพันธ์ระหว่างค่า p และค่า D จากการทดสอบ KS แบบ 2 ด้านหรือไม่ ในบางกรณีฉันเคยเห็นความสัมพันธ์แบบสัดส่วนที่สถิติ D เพิ่มขึ้นด้วยค่า p ดูเหมือนว่าจะเป็นตรงกันข้าม: สองเส้นโค้งที่มีความแตกต่างมากขึ้น (สถิติ D ที่ใหญ่กว่า) จะแตกต่างกันอย่างมีนัยสำคัญยิ่งขึ้น (ค่า p ต่ำ) ...
Thomas Matthew

หากค่า p คือ> 0.05 ตัวอย่างทั้งสองของคุณควรเหมือนกันและมีความสมดุล
798719

5

เมื่อทำการค้นหาของ Google สำหรับ ks_2samp ตีแรกคือนี้เว็บไซต์ ในนั้นคุณสามารถเห็นฟังก์ชั่นสเปค:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

พารามิเตอร์ a และ b เป็นลำดับข้อมูลของฉันหรือฉันควรคำนวณ CDFs เพื่อใช้ ks_2samp?
Meri

@meri: มีตัวอย่างบนหน้าที่ฉันเชื่อมโยง
Stijn
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.