เหตุใดจึงไม่สามารถสรุปการทดสอบ Kolmogorov-Smirnov เป็น 2 มิติหรือมากกว่าได้


10

คำถามบอกว่ามันทั้งหมด ฉันได้อ่านทั้งสองอย่างที่ไม่สามารถสรุป KS ให้มีขนาดเท่ากันหรือใหญ่กว่าสองเท่าได้และการใช้งานที่มีชื่อเสียงเช่นนั้นในNumerical Recipesนั้นผิดปกติ คุณช่วยอธิบายได้ว่าทำไมถึงเป็นเช่นนั้น?


ฉันเพิ่มแท็ก (bivariate, empirical, และ cdf) บางส่วนบนพื้นฐานของส่วนที่ยกมา (ในคำตอบของฉัน) ของกระดาษ
Glen_b -Reinstate Monica

pedrofigueira - ฉันได้ทำการเปลี่ยนแปลงที่สำคัญในคำตอบของฉัน (ต้นฉบับของฉันผิด, ขอโทษเกี่ยวกับที่) ฉันมีแนวโน้มที่จะทำการแก้ไขเพิ่มเติมเพราะฉันตั้งใจจะกลับมาพร้อมกับการอ้างอิงถึงการทดสอบ KS หลายตัวแปร
Glen_b -Reinstate Monica

@Glen_b ขอบคุณมากสำหรับทุกเวลาและความพยายามของคุณ!
pedrofigueira

คำตอบ:


13

ฉันเชื่อว่าถูกต้องตามกฎหมายที่จะอ้างถึงส่วนที่เกี่ยวข้องของวรรคที่เป็นปัญหา:

3. การทดสอบ KS ไม่สามารถใช้ได้ในสองมิติขึ้นไป นักดาราศาสตร์มักจะมีชุดข้อมูลที่มีจุดกระจายอยู่ในระนาบหรือมีมิติที่สูงกว่าแทนที่จะเป็นแนวยาว เอกสารจำนวนมากในวรรณคดีดาราศาสตร์อ้างว่าจะนำเสนอการทดสอบ KS สองมิติและอีกฉบับหนึ่งถูกทำซ้ำในสูตรตัวเลขเชิงปริมาณที่มีชื่อเสียง อย่างไรก็ตามไม่สามารถใช้การทดสอบตาม EDF (รวมถึง KS, AD และการทดสอบที่เกี่ยวข้อง) ในสองมิติหรือสูงกว่าเนื่องจากไม่มีวิธีที่ไม่ซ้ำกันในการสั่งซื้อคะแนนเพื่อให้สามารถคำนวณระยะทางระหว่าง EDF ที่กำหนดไว้อย่างดี เราสามารถสร้างสถิติตามขั้นตอนการสั่งซื้อจากนั้นคำนวณระยะทางสูงสุดระหว่างสองชุดข้อมูล (หรือหนึ่งชุดข้อมูลและเส้นโค้ง) แต่คุณค่าที่สำคัญของสถิติที่ได้นั้นไม่ใช่การแจกฟรี

ตามที่ระบุไว้นี้ดูเหมือนจะแข็งแกร่งเกินไป

1) ฟังก์ชั่นการกระจายสองตัวแปรซึ่งเป็นคือแผนที่จากไป[0,1]นั่นคือฟังก์ชั่นใช้เวลาunivariateค่าจริงระหว่าง 0 และ 1 ค่าเหล่านั้น - เป็นความน่าจะเป็น - อย่างแน่นอน "สั่ง" แล้ว - และนี่ (ค่าของฟังก์ชั่น) เป็นสิ่งที่เราจำเป็นต้องทำการเปรียบเทียบสำหรับการทดสอบ ECDF ตาม . ในทำนองเดียวกัน ecdf,นั้นถูกนิยามไว้อย่างดีในกรณีที่มีการแปรสภาพF(x1,x2)=P(X1x1,X2x2)R2[0,1]F^

ฉันไม่คิดว่าจำเป็นต้องลองเปลี่ยนเป็นฟังก์ชั่นบางอย่างของตัวแปรรวมแบบไม่แปรตามที่ข้อความแนะนำ คุณเพียงแค่คำนวณและในทุกชุดค่าผสมที่ต้องการและคำนวณความแตกต่างFF^

2) อย่างไรก็ตามสำหรับคำถามที่ว่ามันปลอดการแจกจ่ายหรือไม่พวกเขามีประเด็น:

a) ชัดเจนสถิติการทดสอบดังกล่าวจะไม่เปลี่ยนแปลงโดยการเปลี่ยนแปลงการเปลี่ยนแปลงของระยะขอบซึ่งจะบอกว่าถ้าสร้างขึ้นเพื่อทดสอบเครื่องแบบอิสระ bivariateจากนั้นก็ทำงานอย่างเท่าเทียมกัน รวมถึงการทดสอบความเป็นอิสระที่(x_i) ในแง่นั้นมันไม่กระจาย (เราอาจพูดว่า 'ปลอดกำไร')U=(U1,U2)(X1,X2)Ui=Fi(Xi)

b) อย่างไรก็ตามมีจุดที่พื้นฐานมากกว่าโดยทั่วไปในแง่ที่กว้างกว่าว่าสถิติไร้เดียงสาของ KS (เช่นที่ฉันเพิ่งอธิบาย) ไม่ได้แจกฟรีโดยทั่วไป เราไม่สามารถเพียงแค่เปลี่ยนพล{u})UX=g(U)

ในรุ่นก่อนหน้าของคำตอบของฉันฉันพูดว่า:

ไม่มีปัญหาไม่มีปัญหา

มันผิด แน่นอนว่ามีปัญหาหากมีการเปลี่ยนแปลงไม่เพียง แต่จากระยะขอบจากเครื่องแบบอิสระ bivariate ดังที่ได้กล่าวไว้ อย่างไรก็ตามปัญหาเหล่านั้นได้รับการพิจารณาในหลาย ๆ ทางในเอกสารจำนวนหนึ่งที่ให้ผลสถิติ Kolmogorov-Smirnov รุ่น bivariate / multivariate หลายตัวแปรที่ไม่ประสบปัญหานั้น

ฉันอาจกลับมาและเพิ่มการอ้างอิงเหล่านั้นและอภิปรายว่าพวกเขาทำงานอย่างไรเมื่อเวลาเอื้ออำนวย


คำตอบนี้ถูกต้องชัดเจน แต่ระวัง: สามารถใช้การทดสอบ KS ไม่ได้หมายความว่าควรใช้ โดยปกติแล้วจะมีการทดสอบที่ดีกว่า (มีประสิทธิภาพมากขึ้น)
kjetil b halvorsen

แน่นอน - แม้ว่ามันจะขึ้นอยู่กับสิ่งที่เป็นทางเลือกที่น่าสนใจ
Glen_b -Reinstate Monica

1
ฉันไม่เข้าใจคำตอบนี้อย่างเต็มที่ ฉันจินตนาการว่าชุดข้อมูลทางดาราศาสตร์จำนวนมาก (รวมถึงชุดข้อมูลขนาดเล็กอื่น ๆ อีกมากมาย) ไม่ได้มาพร้อมกับระบบพิกัดที่มีความหมายอย่างแท้จริง ดังนั้นการเรียกร้องของคุณว่าคะแนนที่ "สั่งซื้อแล้ว" จะไม่ถูกต้องในกรณีดังกล่าว มันอาจจะช่วยถ้าคุณมีความสามารถที่จะแสดงให้เห็นว่าสถิติ KS เป็นอิสระจากพิกัดที่ใช้ในการระบุสถานที่ตั้ง ฉันไม่คิดว่ามันเป็นเรื่องจริงในสองมิติขึ้นไป แต่ฉันอาจเข้าใจผิด
whuber

1
@ เมื่อฉันได้ทำการเปลี่ยนแปลงที่สำคัญในแง่ของการตอบสนองต่อข้อผิดพลาดของฉัน ฉันอาจจะทำการเปลี่ยนแปลงเพิ่มเติมในขณะที่ฉันเพิ่มการอ้างอิงและรายละเอียดเพิ่มเติมในความหวังในการทำคำตอบที่จะมีประโยชน์มากขึ้นในระยะยาว
Glen_b -Reinstate Monica

(+1) ขอบคุณมากสำหรับการตอบกลับนี้และทำให้มันเหมาะสมยิ่งขึ้น แม้ว่าฉันจะพบว่าการอ้างอิงของ OP เกี่ยวกับคุณภาพที่น่าสงสัย (ในตอนแรกมันตีความผิด ๆ ว่าการทดสอบสมมติฐานหมายถึงอะไร) ในที่สุดก็ยอมรับว่า "bootstrap สามารถเข้ามาช่วยเหลือได้และระดับความสำคัญสำหรับสถิติหลายมิติโดยเฉพาะและชุดข้อมูล คำนวณด้วยตัวเลข " ดูเหมือนว่าจะสอดคล้องกันอย่างน้อยก็ด้วยจิตวิญญาณกับคำตอบของคุณ
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.