วัดความสม่ำเสมอของการกระจายของคะแนนในรูปแบบ 2 มิติ


11

ฉันมีสแควร์ 2 มิติและมีชุดของจุดอยู่ข้างในนั้นพูด 1,000 จุด ฉันต้องการวิธีที่จะดูว่าการกระจายของจุดภายในจัตุรัสนั้นกระจายออกไป (หรือมากกว่าหรือน้อยกว่าการกระจายอย่างสม่ำเสมอ) หรือพวกเขามีแนวโน้มที่จะรวมตัวกันในบางจุดภายในจัตุรัส

ฉันต้องการวิธีการทางคณิตศาสตร์ / สถิติ (ไม่ใช่การเขียนโปรแกรม) เพื่อตรวจสอบสิ่งนี้ ฉัน googled พบสิ่งที่ชอบความดีของ Kolmogorov และอื่น ๆ และเพียงแค่สงสัยว่ามีวิธีการอื่นเพื่อให้บรรลุนี้ ต้องการสิ่งนี้สำหรับกระดาษสำหรับชั้นเรียน

อินพุต: จตุรัส 2D และ 1,000 คะแนน เอาท์พุท: ใช่ / ไม่ (ใช่ = กระจายออกไปอย่างสม่ำเสมอไม่ = รวมตัวกันในบางจุด)


1
คุณไม่ได้พูดชัดแจ้งมากพอว่า "การกระจายแบบสม่ำเสมอ" สำหรับคุณคืออะไร คุณหมายถึงลูกบาศก์เครื่องแบบ 2D กระเบื้องเท่า ๆ กันหรืออย่างอื่น? ตัวอย่างเช่นเชนของคะแนนที่เว้นระยะเท่ากัน? หรือวงกลมคะแนน เรียกอีกอย่างว่าตัวเลขเหล่านี้ก็เป็นแบบกระจายเหมือนกัน
ttnphns

3
@ttnphns ในบริบทนี้ "ชุดเครื่องแบบ" มีความหมายดั้งเดิมที่ยอมรับกันดี มันสอดคล้องกับกระบวนการปัวซงที่มีความเข้มคงที่ มันก็มักจะเรียกกันว่า "CSR" สมบูรณ์แบบสุ่มตำแหน่ง
whuber

2
@Van คุณต้องการวิจัย "กระบวนการจุดเชิงพื้นที่" คำหลักที่ดี ได้แก่ "ฟังก์ชัน Ripley K," "CSR" และ "Poisson" การอ้างอิงที่เข้าถึงได้สำหรับคุณคือ O'Sullivan & Unwin, การวิเคราะห์ข้อมูลทางภูมิศาสตร์ คลาสสิกคือริปลีย์สถิติเชิงพื้นที่ : มันมุ่งเน้นไปที่กระบวนการจุด สำหรับการใช้งานใช้เวลาดูอย่างรวดเร็วที่CrimeStat หากคุณพอใจRมีเครื่องมือมากมายสำหรับงานนี้
whuber

คำตอบ:


5

ฉันคิดว่าความคิดของ @John เกี่ยวกับการทดสอบไค = สแควร์เป็นวิธีหนึ่งที่จะไป

คุณต้องการแพทช์ใน 2-d แต่คุณต้องการทดสอบพวกมันโดยใช้การทดสอบไค - สแควร์ 1 ทาง; นั่นคือค่าที่คาดหวังสำหรับเซลล์จะเท่ากับโดยที่ N คือจำนวนเซลล์1000ยังไม่มีข้อความ

แต่เป็นไปได้ว่าจำนวนเซลล์ที่แตกต่างกันจะให้ข้อสรุปที่แตกต่างกัน

ความเป็นไปได้อีกอย่างหนึ่งคือการคำนวณระยะห่างเฉลี่ยระหว่างจุดแล้วเปรียบเทียบสิ่งนี้กับผลลัพธ์ที่จำลองของค่าเฉลี่ยนั้น ที่หลีกเลี่ยงปัญหาของจำนวนเซลล์โดยพลการ

แก้ไข (ระยะทางเฉลี่ยเพิ่มเติม)

ด้วย 1,000 คะแนนมีระยะทางระหว่างคู่คะแนน แต่ละอันสามารถคำนวณได้ (โดยใช้การพูดระยะทางแบบยุคลิด) ระยะทางเหล่านี้สามารถหาค่าเฉลี่ยได้1000* * * *9992

จากนั้นคุณสามารถสร้าง N (จำนวนมาก) ของชุด 1,000 คะแนนที่กระจายอย่างสม่ำเสมอ ชุด N แต่ละชุดนั้นยังมีระยะห่างเฉลี่ยระหว่างจุดด้วย

เปรียบเทียบผลลัพธ์สำหรับคะแนนจริงกับคะแนนที่จำลองได้เพื่อรับค่า p หรือดูว่าพวกเขาอยู่ตรงไหน


ฉันยอมรับว่าหนึ่งตัวอย่างไคสแควร์ ("ข้อตกลงทดสอบไคสแควร์") เป็นวิธีที่สมเหตุสมผล แต่คุณสามารถอธิบายรายละเอียดเพิ่มเติมเกี่ยวกับข้อเสนอ "ระยะทางที่ไม่ดี" ของคุณได้หรือไม่? ฉันไม่ค่อยเข้าใจ
ttnphns

@ttnphns, สิ่งที่ใช้ในการวิเคราะห์เชิงพื้นที่คือการทดสอบเพื่อนบ้านที่ใกล้ที่สุด (aka การทดสอบคลาร์กและอีแวนส์) หรือของริปลีย์เคดูที่ห้องสมุดspatstat R หรือเอกสาร CrimeStatสำหรับตัวอย่าง ความเป็นไปได้อีกอย่างจากการจำลองคือการทดสอบ "สแกน" แต่สิ่งเหล่านี้ไม่ได้ขึ้นอยู่กับระยะทางเฉลี่ย
Andy W

3

ความเป็นไปได้อีกอย่างคือการทดสอบ Chi-Squared แบ่งสี่เหลี่ยมออกเป็นแพทช์ที่ไม่ทับซ้อนกันขนาดเท่ากันและและทดสอบจำนวนคะแนนที่ตกลงไปในแพทช์กับจำนวนที่คาดไว้ภายใต้สมมติฐานของความเท่าเทียม (ความคาดหวังของแพทช์คือ total_points / total_patches และใช้การทดสอบไคสแควร์ สำหรับ 1,000 คะแนน 9 แพตช์ควรเพียงพอ แต่คุณอาจต้องการใช้ความละเอียดมากขึ้นโดยขึ้นอยู่กับว่าข้อมูลของคุณเป็นอย่างไร


1
ฉันคิดว่าคุณกำลังเข้าสู่บางสิ่ง แต่ความดีพอดีของไคสแควร์เมื่อเปรียบเทียบจำนวนจริงในแต่ละเซลล์เทียบกับจำนวนเซลล์เท่า ๆ กันที่คาดหวังจะเป็นสิ่งที่คุณต้องการ การใช้การทดสอบฉุกเฉินจะไม่ทดสอบว่ามีการกระจายตัวสม่ำเสมอระหว่างเซลล์ของคุณหรือไม่หากแถวขึ้นอยู่กับคอลัมน์
จอห์น

นอกจากนี้การทดสอบไคสแควร์จะบอกคุณได้ว่ามันไม่เหมือนกันในทุกเซลล์ที่คุณเลือก มันจะไม่บอกคุณถ้าพวกเขาเหมือนกัน
จอห์น

ใช่ฉันหมายถึงการนับการนับที่คาดหวังของพวกเขาภายใต้สมมติฐานว่างของความสม่ำเสมอฉันขอโทษถ้ามันไม่ชัดเจน คุณสามารถเห็นภาพมันเป็นตารางที่ช่วยให้เข้าใจสิ่งที่เกิดขึ้นสำหรับมือใหม่! และแน่นอนว่าคุณถูก จำกัด การทดสอบกับเซลล์ที่คุณเลือกมากกว่าความสม่ำเสมอในแง่นามธรรม
เบ็นอัลลิสัน

@John โดยทั่วไปแล้วเมื่อมีคนหนึ่งคนนี้ "การทดสอบการกระจายตัว" อย่างใดอย่างหนึ่งโดยทั่วไปแล้วจะทำการทดสอบสองด้าน หากคุณต้องการที่จะดูว่ารูปแบบนั้นมีความสม่ำเสมอมากกว่าที่คาดไว้หรือไม่คุณสามารถลองดูว่าการทดสอบไคสแควร์ตกอยู่ที่หางซ้ายของการกระจายตัวหรือไม่ (ตามที่คุณต้องการ)
Andy W

แอนดี้คุณควรให้คำตอบว่ารายละเอียดการทดสอบความพอดีแบบสองด้านนี้ โดยทั่วไปแล้วการทดสอบสองด้านจะทำการทดสอบทางเลือกสองทางที่แตกต่างกันไปเป็นค่าว่าง แต่ก็ยังไม่สามารถแสดงค่าว่างได้ ข้อเสนอของคุณน่าสนใจ
จอห์น

1

ทำไมไม่ใช้การทดสอบ Kolmogorov-Smirnov นั่นคือสิ่งที่ฉันจะทำโดยเฉพาะอย่างยิ่งเมื่อพิจารณาว่าขนาดตัวอย่างของคุณใหญ่พอที่จะชดเชยการขาดพลังงาน

หรือคุณสามารถทำการจำลองบางอย่าง มันไม่เข้มงวด แต่มีหลักฐานบางอย่างว่าข้อมูลนั้นมีการกระจายอย่างสม่ำเสมอหรือไม่


@whuber ส่วนขยายสองมิติของ KS เป็นที่รู้จักกันดี (ดูที่นี่ ) ในกรณีนี้เรากำลังตรวจสอบว่า 1,000 ดึง (พิกัด (x, y)) เหล่านี้สามารถดึงได้จากการแจกแจงแบบสองมิติร่วมกันอย่างน้อยนั่นคือสิ่งที่ฉันอ่าน "กระจายออกไปอย่างสม่ำเสมอ" @John ฉันอาจแสดงออกอย่างงุ่มง่าม (ไม่ใช่คณิตศาสตร์หรือภาษาอังกฤษเป็นภาษาแรกของฉัน) สิ่งที่ฉันหมายถึงคือ p-value ที่แน่นอนสามารถคำนวณได้โดยใช้การทดสอบเช่น KS ในขณะที่ p-value (หรือสิ่งที่คุณเรียกว่าเทียบเท่า) มีแนวโน้ม asymptotically เมื่อทำการจำลอง


ทำไมการจำลองไม่เข้มงวด?
จอห์น

1
คุณสามารถอธิบายวิธีการทดสอบ KS - ซึ่งมีไว้สำหรับชุดจำนวนจริงที่คาดว่าจะเป็นผลลัพธ์ของตัวแปรสุ่มต่อเนื่อง - จะถูกนำไปใช้กับชุดข้อมูลเชิงพื้นที่นี้หรือไม่
whuber

@whuber ฉันได้แก้ไขคำตอบของฉันเพื่อลองและให้คำตอบสำหรับการตอบกลับของคุณ ดีที่สุด
abaumann

@John ฉันพยายามอธิบายว่าฉันหมายถึงอะไร ดีที่สุด
abaumann
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.