เปรียบเทียบสองรูปแบบจุดเชิงพื้นที่?


41

หากฉันมีการแจกแจงแบบแผนสองจุดในพื้นที่ทางภูมิศาสตร์เดียวกันฉันจะเปรียบเทียบการแจกแจงสองแบบนี้ได้อย่างไร

สมมติว่าฉันมีหลายจุดในพื้นที่เล็ก ๆ ดังนั้นการแสดงแผนที่พินนั้นไม่เป็นไปตามปกติ

คำตอบ:


32

เช่นเคยขึ้นอยู่กับวัตถุประสงค์และลักษณะของข้อมูล สำหรับแมปสมบูรณ์ข้อมูลเครื่องมือที่มีประสิทธิภาพเป็นฟังก์ชั่น L ริบลีส์, ญาติสนิทของฟังก์ชั่น K ริบลีส์ ซอฟต์แวร์จำนวนมากสามารถคำนวณสิ่งนี้ได้ ArcGIS อาจจะทำมันในตอนนี้ ฉันไม่ได้ตรวจสอบ CrimeStatทำมัน เพื่อทำGeoDa และ R ตัวอย่างของการใช้งานพร้อมแผนที่ที่เกี่ยวข้องปรากฏขึ้นใน

Sinton, DS และ W. Huber การทำแผนที่ลายและมรดกทางชาติพันธุ์ในสหรัฐอเมริกา วารสารภูมิศาสตร์. 106: 41-47 2007

นี่คือสกรีนช็อตของ CrimeStat ในเวอร์ชั่น "L function" ของ Ripley's K:

สกรีนช็อตของฟังก์ชัน K ของ Ripley

เส้นโค้งสีน้ำเงินแสดงการกระจายของจุดที่ไม่สุ่มเพราะมันไม่ได้อยู่ระหว่างแถบสีแดงและสีเขียวรอบศูนย์ซึ่งเป็นจุดที่สีน้ำเงินสำหรับการ L-function ของการกระจายแบบสุ่มควรอยู่

สำหรับข้อมูลตัวอย่างมากขึ้นอยู่กับลักษณะของการสุ่มตัวอย่าง ทรัพยากรที่ดีสำหรับการนี้สามารถเข้าถึงได้กับผู้ที่มี จำกัด ( แต่ไม่ทั้งหมดอยู่) พื้นหลังในวิชาคณิตศาสตร์และสถิติเป็นตำราสตีเว่น ธ อมป์สันในการสุ่มตัวอย่าง

โดยทั่วไปแล้วเป็นกรณีที่การเปรียบเทียบทางสถิติส่วนใหญ่สามารถแสดงเป็นภาพกราฟิกและการเปรียบเทียบแบบกราฟิกทั้งหมดสอดคล้องกับหรือแนะนำคู่สถิติ ดังนั้นความคิดใด ๆ ที่คุณได้รับจากวรรณกรรมทางสถิติมีแนวโน้มที่จะแนะนำวิธีที่มีประโยชน์ในการทำแผนที่หรือเปรียบเทียบชุดข้อมูลทั้งสองแบบกราฟิก


ขอบคุณสำหรับกระดาษ Dixon ดูเหมือนว่าจะเป็นทรัพยากรที่ยอดเยี่ยม ฉันไม่เคยเจอความแตกต่างระหว่างปฏิสัมพันธ์เชิงพื้นที่และการติดฉลากแบบสุ่มสำหรับรูปแบบที่หลากหลาย ฉันจะต้องอ่าน
Andy W

+1 แหล่งข้อมูลที่ดี ดังนั้นการตกปลาในสังคมจริงที่ "90% ของปลาอยู่ใน 10% ของทะเลสาบ" ขึ้นอยู่กับวิธีการสุ่มตัวอย่าง?
Kirk Kuykendall

@ เคิร์กสำหรับพวกเราหลายคนปลา 0% อยู่ใน 10% ของทะเลสาบที่เราสามารถเข้าถึงได้จริง!
whuber

14

หมายเหตุ: ข้อมูลต่อไปนี้ได้รับการแก้ไขตามความคิดเห็นของ whuber

คุณอาจต้องการใช้วิธีมอนติคาร์โล นี่คือตัวอย่างง่ายๆ สมมติว่าคุณต้องการพิจารณาว่าการกระจายของเหตุการณ์อาชญากรรม A นั้นคล้ายคลึงกับสถิติของ B หรือไม่คุณสามารถเปรียบเทียบสถิติระหว่างเหตุการณ์ A และ B กับการกระจายเชิงประจักษ์ของมาตรการดังกล่าวสำหรับ 'เครื่องหมาย' ที่กำหนดใหม่แบบสุ่ม

เช่นกำหนดการกระจายของ A (สีขาว) และ B (สีน้ำเงิน)

ป้อนคำอธิบายรูปภาพที่นี่

คุณสุ่มกำหนดป้ายกำกับ A และ B เป็นคะแนนทั้งหมดในชุดข้อมูลที่รวมกัน นี่คือตัวอย่างของการจำลองเดียว:

ป้อนคำอธิบายรูปภาพที่นี่

คุณทำซ้ำหลาย ๆ ครั้ง (พูด 999 ครั้ง) และสำหรับการจำลองแต่ละครั้งคุณคำนวณสถิติ (สถิติเพื่อนบ้านที่ใกล้ที่สุดโดยเฉลี่ยในตัวอย่างนี้) โดยใช้จุดที่มีป้ายกำกับแบบสุ่ม ตัวอย่างโค้ดที่ตามมาอยู่ในR (ต้องใช้ไลบรารีspatstat )

nn.sim = vector()
P.r = P
for(i in 1:999){
  marks(P.r) = sample(P$marks)  # Reassign labels at random, point locations don't change
  nn.sim[i] = mean(nncross(split(P.r)$A,split(P.r)$B)$dist)
}

จากนั้นคุณสามารถเปรียบเทียบผลลัพธ์แบบกราฟิก (เส้นแนวตั้งสีแดงเป็นสถิติดั้งเดิม)

hist(nn.sim,breaks=30)
abline(v=mean(nncross(split(P)$A,split(P)$B)$dist),col="red")

ป้อนคำอธิบายรูปภาพที่นี่

หรือตัวเลข

# Compute empirical cumulative distribution
nn.sim.ecdf = ecdf(nn.sim)

# See how the original stat compares to the simulated distribution
nn.sim.ecdf(mean(nncross(split(P)$A,split(P)$B)$dist)) 

โปรดทราบว่าสถิติเพื่อนบ้านโดยเฉลี่ยที่ใกล้ที่สุดอาจไม่ใช่วิธีการทางสถิติที่ดีที่สุดสำหรับปัญหาของคุณ สถิติเช่นฟังก์ชั่น K สามารถเปิดเผยได้มากขึ้น (ดูคำตอบของผู้ขายตั๋ว)

สามารถนำไปใช้งานได้อย่างง่ายดายใน ArcGIS โดยใช้ Modelbuilder ในลูปให้สุ่มกำหนดค่าแอททริบิวใหม่ให้กับแต่ละจุดจากนั้นคำนวณสถิติเชิงพื้นที่ คุณควรจะสามารถนับผลลัพธ์ในตารางได้


2
คุณอาจต้องการพิจารณาการทดสอบการเปลี่ยนรูปแทนวิธีแมนนี่หนาแน่น สมมติฐานว่างคือป้ายสีน้ำเงินและสีขาวเป็นอิสระจากคะแนน ในการทดสอบให้ใช้สถิติที่เหมาะสมกับพื้นที่ใกล้เคียง (เช่นระยะทางเฉลี่ยที่ใกล้ที่สุดระหว่างจุดสีน้ำเงินและสีขาวเดินทางไปตามถนน) สุ่มกำหนดสีให้กับทุกจุดโดยรักษาสีน้ำเงินและสีขาวในจำนวนที่เท่ากันและคำนวณสถิติใหม่ ทำซ้ำหลาย ๆ ครั้งเพื่อประมาณค่าการแจกแจงโมฆะของสถิติ อ้างอิงค่าจริงของสถิติของการแจกแจงนี้เพื่อรับค่า p
whuber

ขอบคุณมาก ฉันไม่เคยเห็นว่าสิ่งนี้เป็นปัญหาที่ทำเครื่องหมายไว้ ฉันอัปเดตคำตอบเพื่อสะท้อนถึงวิธีการนี้ อย่างไรก็ตามมันไม่ชัดเจนสำหรับฉันว่าทำไมวิธีดั้งเดิมของฉัน (เช่นการใช้ตารางความหนาแน่นเคอร์เนลเพื่อสร้างคะแนนแบบสุ่ม) ทำให้ได้ผลลัพธ์ที่แตกต่าง ในความเป็นจริงมัน (โซลูชันดั้งเดิมของฉัน) ไม่ได้สะท้อนความจริงที่ว่าทั้ง A และ B มาจากกระบวนการที่คล้ายกัน นี่เป็นเพราะวิธีความหนาแน่นของเคอร์เนลไม่ได้ใช้ประโยชน์จากรายละเอียดที่เราได้รับจากข้อมูลจุดหรือไม่?
MannyG

1
ความหนาแน่นของเคอร์เนลมีองค์ประกอบเล็ก ๆ ของความเด็ดขาด (เกี่ยวข้องกับทางเลือกของ halfwidth) สิ่งนี้สามารถสร้างความแตกต่าง มันค่อนข้างจะถูกลบออกไปจากสิ่งที่เกิดขึ้นจริง: มีกระบวนการสร้างจุดพื้นฐานอยู่ คุณเห็นการตระหนักถึงหนึ่งกระบวนการนั้น คุณทำ KDE ของมัน ; จากนั้นคุณดึงการรับรู้ใหม่จาก KDE นั้น ผลที่ตามมาคือคุณเพิ่งสร้างการกำหนดค่าใหม่มากมายเช่นการกำหนดค่าเดียวที่คุณสังเกตเห็น ในวิธีการเรียงสับเปลี่ยนสมมติฐานว่าง ๆ ที่ว่าการแจกแจงทั้งสองนั้นเหมือนกันคือการพิสูจน์ให้อนุญาตเครื่องหมาย: นี่เป็นสิ่งที่ตรงและมีประสิทธิภาพ
whuber

1
ขอบคุณสำหรับการป้อนข้อมูลฉันจะให้ความคิดเห็นแบบเต็มมากขึ้นเมื่อฉันมีเวลามากขึ้น มันเป็นการดีที่จะทราบรหัส R นี้ (คุณยังพูดถึงว่ามันเป็นรหัส R ในคำตอบ?) และมันใช้ฟังก์ชั่นในspatstatแพคเกจ
Andy W

2
+1, สิ่งที่ดีอย่างหนึ่งเกี่ยวกับการใช้การทดสอบการเปลี่ยนรูปแบบเช่นนี้คือ 1) เมื่อถูก จำกัด ความจำเพาะของ geocoder (ที่อยู่หรือช่วงที่อยู่สำหรับข้อมูลอาชญากรรมในสถานการณ์ส่วนใหญ่) การประเมินรูปแบบจุดเมื่อเปรียบเทียบกับการสุ่มเชิงพื้นที่สมบูรณ์ ความรู้สึกมาก 2) การทดสอบการเปลี่ยนแปลงดังกล่าวหลีกเลี่ยงปัญหาที่มีผลกระทบขอบ แน่นอนว่าสิ่งเหล่านี้เป็นสิ่งที่เกินความคาดหมาย แต่ฉันคิดว่ากรอบดังกล่าวสามารถทำให้เป็นมาตรฐานเพื่อประเมินสถิติรูปแบบจุดต่าง ๆ ได้
Andy W

4

คุณอาจต้องการดู CrimeStat

ตามเว็บไซต์:

CrimeStat เป็นโปรแกรมสถิติเชิงพื้นที่สำหรับการวิเคราะห์สถานที่เกิดเหตุอาชญากรรมที่พัฒนาโดยเน็ด Levine & Associates ซึ่งได้รับทุนจากทุนจากสถาบันแห่งชาติของความยุติธรรม (ทุน 1997-IJ-CX-0040, 1999-IJ-CX-0044, 2002-IJ-CX-0007 และ 2005-IJ-CX-K037) โปรแกรมนี้ใช้ Windows และอินเตอร์เฟสกับโปรแกรม GIS บนเดสก์ท็อปส่วนใหญ่ มีวัตถุประสงค์เพื่อจัดทำเครื่องมือทางสถิติเพิ่มเติมเพื่อช่วยหน่วยงานบังคับใช้กฎหมายและนักวิจัยด้านกระบวนการยุติธรรมทางอาญาในการทำแผนที่อาชญากรรม CrimeStat กำลังถูกใช้งานโดยหน่วยงานตำรวจหลายแห่งทั่วโลกเช่นเดียวกับความยุติธรรมทางอาญาและนักวิจัยอื่น ๆ รุ่นล่าสุดคือ 3.3 (CrimeStat III)


2

วิธีที่ง่ายและรวดเร็วคือการสร้างแผ่นความร้อนและแผนที่ที่แตกต่างของแผ่นความร้อนทั้งสองนั้น ที่เกี่ยวข้อง: วิธีสร้างแผนที่ความร้อนที่มีประสิทธิภาพได้อย่างไร


3
น่าเสียดายที่การแตกต่างกันของแผนที่สองแบบที่สอดแทรกหรือปรับให้เรียบนั้นมีแนวโน้มที่จะบอกคุณเกี่ยวกับวิธีการแก้ไขหรือปรับให้เรียบมากกว่าเกี่ยวกับข้อมูล :-( ถ้าคุณต้องแก้ไขให้ระวังด้วยเช่นกัน (เช่น krige หลังจากแสดง EDA และตัวแปร) เพียงแค่สอดแทรกชุดข้อมูลหนึ่งชุดคุณสามารถเปรียบเทียบข้อมูลจริงในชุดเดียวกับค่าที่ถูกแทรกของอีกชุดหนึ่งซึ่งจะช่วยลดข้อผิดพลาดครึ่งหนึ่งของการเปรียบเทียบแผนที่ที่ถูกแทรกสองรายการโปรดทราบว่าการแก้ไขนั้นไม่ถูกต้องสำหรับข้อมูลหลายชนิด ข้อมูลชนิดอื่น
whuber

ฉันยอมรับว่าวิธีนี้ไม่เหมาะกับข้อมูลอินพุตหลายชนิด ฉันคิดว่ามันสามารถสร้างความประทับใจแรกที่ดีเมื่อวิเคราะห์รูปแบบความหนาแน่นของจุด
underdark

ฉันไม่สงสัยเลยว่าคุณถูกต้องเมื่อผู้เชี่ยวชาญทำการแก้ไขและตีความอย่างรอบคอบ
whuber

2

สมมติว่าคุณได้ทบทวนวรรณกรรมเกี่ยวกับความสัมพันธ์เชิงพื้นที่อัตโนมัติ ArcGIS มีจุดและคลิกเครื่องมือต่างๆที่จะทำเรื่องนี้ให้คุณผ่านสคริปต์ Toolbox: Spatial สถิติเครื่องมือ -> รูปแบบการวิเคราะห์

คุณสามารถทำงานย้อนหลังได้ - ค้นหาเครื่องมือและตรวจสอบอัลกอริทึมที่ใช้เพื่อดูว่ามันเหมาะกับสถานการณ์ของคุณหรือไม่ ฉันใช้ดัชนีโมแรนย้อนกลับไปในขณะที่ตรวจสอบความสัมพันธ์เชิงพื้นที่ในการเกิดแร่ธาตุในดิน


2

คุณสามารถรันการวิเคราะห์ความสัมพันธ์แบบ bivariate ในโปรแกรมสถิติหลายตัวเพื่อกำหนดระดับความสัมพันธ์ทางสถิติระหว่างตัวแปรทั้งสองและระดับนัยสำคัญ จากนั้นคุณสามารถสำรองการค้นพบทางสถิติของคุณโดยการจับคู่หนึ่งตัวแปรโดยใช้ชุดรูปแบบ chloropleth และตัวแปรอื่น ๆ ที่ใช้สัญลักษณ์ที่สำเร็จการศึกษา เมื่อซ้อนทับแล้วคุณสามารถกำหนดได้ว่าพื้นที่ใดแสดงความสัมพันธ์เชิงพื้นที่สูง / สูงสูง / ต่ำและต่ำ / ต่ำ งานนำเสนอนี้มีตัวอย่างที่ดี

นอกจากนี้คุณยังสามารถลองใช้ซอฟท์แวร์ geovisualization ฉันชอบ CommonGIS สำหรับการสร้างภาพชนิดนี้ คุณสามารถเลือกพื้นที่ใกล้เคียง (ตัวอย่างของคุณ) และสถิติและแผนการที่มีประโยชน์ทั้งหมดจะพร้อมใช้งานทันที มันทำให้การวิเคราะห์แผนที่หลายตัวแปรนั้นง่ายดายมาก


2
นี่เป็นแนวคิดที่ดี แต่ฉันสังเกตเห็นตัวอย่างที่คุณอ้างถึงว่าประสบความสำเร็จเพราะแอตทริบิวต์นั้นสอดคล้องกับชุดของคุณสมบัติทั่วไป ในคำถามปัจจุบันคุณสมบัติมีสถานที่แตกต่างกันและสถานที่เหล่านั้นเป็นตัวแปรสุ่ม (เช่นหน่วยการบริหารคงที่เป็นต้น) สิ่งเหล่านี้เป็นภาวะแทรกซ้อนที่สำคัญเพราะตอนนี้เราจำเป็นต้องหากระบวนการที่มีความหมายเพื่อเชื่อมโยงคุณค่าในสถานที่แห่งหนึ่งกับสถานที่อื่นและเราจำเป็นต้องรับมือกับตัวละครแบบสุ่มของสถานที่นั้น ๆ
whuber

ขอบคุณสำหรับคำชี้แจง! ฉันอ่าน OP ผิดพลาดและสันนิษฐานว่าเป็นตัวแปรอิสระสองตัวที่แชร์ตำแหน่ง / ขอบเขตทางภูมิศาสตร์ (เช่น DA / CT และอื่น ๆ )
Michael Markieta

1

การวิเคราะห์ควอดราตจะดีสำหรับสิ่งนี้ เป็นวิธีการ GIS ที่สามารถเน้นและเปรียบเทียบรูปแบบเชิงพื้นที่ของชั้นข้อมูลจุดต่าง ๆ

ร่างของการวิเคราะห์ quadrat ว่าการประเมินความสัมพันธ์เชิงพื้นที่ระหว่างชั้นข้อมูลหลายจุดสามารถพบได้ที่ http://www.nccu.edu/academics/sc/artsandsciences/geospatialscience/_documents/se_daag_poster.pdf


1
(1) ลิงก์คือ 404 (ซึ่งเป็นสาเหตุที่เราขอคำตอบเพื่อรวมบทสรุปของลิงก์ทั้งหมด) (2) การวิเคราะห์ควอดราทท์เปรียบเทียบการกระจายสองจุดอย่างไร
whuber

(1) ลิงก์อาจใช้งานได้ในขณะนี้ (2) การวิเคราะห์ควอดราตแบ่งพื้นที่ที่กำหนดออกเป็นหน่วยขนาดเท่ากัน จากนั้นใช้การวิเคราะห์ความน่าจะเป็นเพื่อกำหนดความถี่ที่แท้จริงของคะแนนภายในแต่ละรูปสี่เหลี่ยมจตุรัสเปรียบเทียบกับค่าที่คาดหวังสำหรับแต่ละความถี่ การใช้คำสั่งความหนาแน่นของจุดและสถิติโซนเป็นเครื่องมือตารางในส่วนขยายนักวิเคราะห์เชิงพื้นที่สำหรับ ArcMap เราสามารถเน้นพื้นที่ที่อยู่ใกล้กับตำแหน่งจุดที่มีความหนาแน่นสูงนอกเหนือจากการสรุปคลาสคุณลักษณะจุดเหล่านี้สำหรับการวิเคราะห์การถดถอย

คุณได้อธิบายขั้นตอนสำหรับการวิเคราะห์แบบกระจายตัวแปรจุด มันสามารถปรับเปลี่ยนได้ (โดยการประเมินความสัมพันธ์แบบ quadrat) กับการเปรียบเทียบระดับของการเกิดขึ้นของสองกระบวนการ แต่ได้รับผลกระทบจากข้อ จำกัด ที่สำคัญสองประการ ครั้งแรกมันไม่ได้ศึกษาความสัมพันธ์ระหว่างกระบวนการเป็นฟังก์ชั่นของระยะทาง สองโดยbinningจุดในกรอบจะสูญเสียอำนาจ การสูญเสียพลังงานหมายความว่าคุณอาจล้มเหลวในการระบุรูปแบบที่สำคัญหรืออื่น ๆ ก็หมายความว่าคุณต้องรวบรวมข้อมูลเพิ่มเติมเพื่อให้บรรลุวัตถุประสงค์การตรวจสอบ
whuber

ฉันใช้ "ขั้นตอน" นี้สำหรับการวิเคราะห์หลายตัวแปรของการแจกแจงคะแนน ในขณะที่มันบ่งบอกถึงการสูญเสียพลังงาน แต่ก็มีวิธีการเปรียบเทียบการกระจายรูปแบบจุดที่มองเห็นและเชิงปริมาณในระดับที่ไม่ซ้ำกันของการรวม (วิธีแก้ปัญหาสำหรับคำถามเดิมที่นี่)

ฉันหวังว่าสิ่งที่คุณอ่านบนเว็บไซต์ของเราเป็นแรงบันดาลใจให้คุณพิจารณาแนวทางอื่นในอนาคต: พวกเขาจะขยายขีดความสามารถของคุณในการใช้ประโยชน์จากข้อมูลของคุณและแหล่งข้อมูลการวิจัยที่ จำกัด
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.