ทางเลือกที่ทนทานสำหรับโมแรนฉัน


19

Moran Iซึ่งเป็นมาตรวัดความสัมพันธ์เชิงพื้นที่อัตโนมัตินั้นไม่ได้เป็นสถิติที่แข็งแกร่งเป็นพิเศษ

เทคนิคที่แข็งแกร่งกว่านี้สำหรับการวัดค่าความสัมพันธ์เชิงพื้นที่มีอะไรบ้าง ฉันสนใจเป็นพิเศษในการแก้ปัญหาที่พร้อมใช้งาน / นำไปใช้ในภาษาสคริปต์เช่นอาร์หากการแก้ปัญหานำไปใช้กับสถานการณ์ / การแจกแจงข้อมูลที่ไม่ซ้ำกันโปรดระบุคำตอบของคุณ


แก้ไข : ฉันกำลังขยายคำถามด้วยตัวอย่างบางส่วน (เพื่อตอบสนองต่อความคิดเห็น / คำตอบของคำถามเดิม)

มีคนแนะนำว่าเทคนิคการเปลี่ยนแปลง (ที่การกระจายตัวตัวอย่างฉันของโมแรนสร้างขึ้นโดยใช้วิธีการมอนติคาร์โล) เสนอวิธีแก้ปัญหาที่มีประสิทธิภาพ ความเข้าใจของฉันคือว่าการทดสอบดังกล่าวจะช่วยลดความจำเป็นที่จะต้องทำให้สมมติฐานใด ๆ เกี่ยวกับการกระจายผมโมแรน (ระบุว่าสถิติการทดสอบสามารถได้รับอิทธิพลจากโครงสร้างเชิงพื้นที่ของชุดข้อมูล) แต่ผมไม่เห็นว่าการเปลี่ยนแปลงแก้ไขเทคนิคในการที่ไม่ปกติ ข้อมูลแอตทริบิวต์กระจาย ฉันเสนอสองตัวอย่าง: ตัวหนึ่งที่แสดงให้เห็นถึงอิทธิพลของข้อมูลที่บิดเบือนที่มีต่อสถิติของโมแรน I ในท้องที่และอีกอันเกี่ยวกับโมแรน I ของโลก - แม้ภายใต้การทดสอบการเปลี่ยนรูป

ฉันจะใช้จางและคณะ 's (2008) วิเคราะห์เป็นตัวอย่างแรก ในบทความของพวกเขาพวกเขาแสดงอิทธิพลของการกระจายข้อมูลคุณลักษณะที่มีต่อMoran I ในท้องถิ่นโดยใช้การทดสอบการเปลี่ยนรูป (9999 แบบจำลอง) ฉันทำซ้ำผลลัพธ์ฮอตสปอตของผู้เขียนสำหรับความเข้มข้นของสารตะกั่ว (Pb) (ที่ระดับความเชื่อมั่น 5%) โดยใช้ข้อมูลดั้งเดิม (แผงด้านซ้าย) และการแปลงบันทึกของข้อมูลเดียวกัน (แผงด้านขวา) ใน GeoDa Boxplots ของความเข้มข้น Pb ดั้งเดิมและบันทึกการแปลงจะถูกนำเสนอด้วย ที่นี่จำนวนฮอตสปอตที่สำคัญเกือบสองเท่าเมื่อข้อมูลถูกแปลง ตัวอย่างนี้แสดงให้เห็นว่าสถิติท้องถิ่นมีความอ่อนไหวต่อการกระจายข้อมูลแอ็ตทริบิวต์ - แม้ว่าจะใช้เทคนิค Monte Carlo!

ป้อนคำอธิบายรูปภาพที่นี่

ตัวอย่างที่สอง (ข้อมูลจำลอง) แสดงให้เห็นถึงข้อมูลที่มีอิทธิพลต่อการเอียงที่มีต่อMoran I ทั่วโลกแม้ในขณะที่ใช้การทดสอบการเปลี่ยนรูป ตัวอย่างในRดังนี้:

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

สังเกตความแตกต่างในค่า P ข้อมูลที่เบ้บ่งชี้ว่าไม่มีการทำคลัสเตอร์ที่ระดับนัยสำคัญ 5% (p = 0.167) ในขณะที่ข้อมูลที่แจกแจงตามปกติแสดงว่ามี (p = 0.013)


Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, ใช้ Moran I และ GIS เพื่อระบุฮอตสปอตมลพิษของ Pb ในเมืองในเมืองกัลเวย์, ไอร์แลนด์, วิทยาศาสตร์ของสิ่งแวดล้อมโดยรวม, เล่ม 398, ฉบับที่ 1-3, 15 กรกฎาคม 2008 , หน้า 212-221


1
คุณมีการอ้างอิงสำหรับความไวต่อการแจกแจงแบบเบ้) หรือไม่? คุณสนใจที่จะทดสอบทั่วโลกเกี่ยวกับการแจกแจงเชิงพื้นที่โดยไม่สุ่มหรือระบุคุณสมบัติที่ผิดปกติในท้องที่หรือไม่? การกระจายตัวของผลที่น่าสนใจคืออะไร (ตัวแปรนับเป็นบวก?)
Andy W

1
AndyW: 1) หนึ่งในการอ้างอิงถึงความไวของการทดสอบคือ 'การวิเคราะห์เชิงพื้นที่ของ Fortin และ Dale, คู่มือนักนิเวศวิทยา' (หน้า 125), 2) ฉันสนใจวิธีแก้ปัญหาสำหรับการทดสอบทั้งระดับโลกและระดับท้องถิ่น 3) ฉันไม่เจาะจง การกระจายข้อมูลอยู่ในใจ
MannyG

1
แอนดี้เนื่องจากโมแรนฉันขึ้นอยู่กับการแปรผันของน้ำหนักและการประมาณความแปรปรวนร่วมมันจะมีความไวต่อค่าผิดปกติเช่นเดียวกับที่คาดการณ์ไว้ซึ่งเป็นที่รู้จักกันดี ข้อมูลเชิงลึกนี้ยังชี้ให้เห็นถึงวิธีการแก้ปัญหาที่เป็นไปได้มากมายสำหรับปัญหาของแมนนี่: แทนที่การประเมินการกระจายและการเชื่อมโยงที่คุณโปรดปรานเพื่อสร้างความสัมพันธ์ถ่วงน้ำหนักที่แข็งแกร่ง
whuber

1
ดูเหมือนว่าคุณกำลังสร้างแนวคิดหลายอย่างที่นี่ @Andy ก่อนอื่นแมนนี่ต้องการวัดค่าความสัมพันธ์อัตโนมัติ เขาไม่จำเป็นต้องทำการทดสอบสมมติฐาน ประการที่สองคำถามที่มีการทดสอบสมมติฐานเป็นกรอบที่ดีที่สุดในแง่ของพลังงานมากกว่าความแข็งแกร่ง แต่ (ที่สาม) แนวคิดมีการเชื่อมต่อ: สถิติการทดสอบที่แข็งแกร่งจะมีแนวโน้มที่จะรักษาอำนาจของตนภายใต้การละเมิดที่หลากหลายของสมมติฐานการกระจายสินค้า (เช่นการปนเปื้อนโดยผู้ผิดกฎหมาย) ในขณะที่สถิติการทดสอบที่ไม่แข็งแกร่ง พลังของมันในสถานการณ์เหล่านั้น
whuber

1
@ FC84 ฉันกลับไปที่ปัญหานี้เมื่อปีที่แล้วและเขียนแนวทางแก้ไขที่เสนอ แต่มันต้องการการตรวจค้น ฉันวางแผนที่จะเสนอบทความลดราคา (มาก) ที่เป็นคำตอบที่นี่ในบางจุด อย่าลังเลที่จะรวบรวมสิ่งที่คุณสามารถทำได้จากสิ่งที่ฉันมี แต่ใช้ด้วยความระมัดระวัง!
MannyG

คำตอบ:


2

(นี่เป็นสิ่งที่เทอะทะเกินไปที่จะเปลี่ยนเป็นความคิดเห็น)

สิ่งนี้เกี่ยวข้องกับการทดสอบในระดับท้องถิ่นและระดับโลก (ไม่ใช่แบบวัดเฉพาะที่เป็นอิสระจากความสัมพันธ์แบบอัตโนมัติ) ฉันขอขอบคุณที่การวัด Moran I ที่เฉพาะเจาะจงของฉันเป็นการประเมินความสัมพันธ์แบบอคติ (การตีความในเงื่อนไขเดียวกับสัมประสิทธิ์สหสัมพันธ์แบบ Pearson) ฉันยังไม่เห็นว่าการทดสอบสมมติฐานการเปลี่ยนแปลงนั้นมีความอ่อนไหวต่อการกระจายตัวของตัวแปรแบบดั้งเดิมอย่างไร ไม่ว่าจะเป็นข้อผิดพลาดประเภท 1 หรือ 2)

ปรับรหัสที่คุณให้ไว้ในความคิดเห็นเล็กน้อย (น้ำหนักเชิงพื้นที่colqueenขาดหายไป);

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

เมื่อหนึ่งทำการทดสอบการเปลี่ยนแปลง (ในกรณีนี้ฉันชอบที่จะคิดว่ามันเป็นพื้นที่ jumbling up) การทดสอบสมมติฐานของความสัมพันธ์เชิงพื้นที่อัตโนมัติทั่วโลกไม่ควรได้รับผลกระทบจากการกระจายตัวของตัวแปรเนื่องจากการกระจายการทดสอบแบบจำลองจะเปลี่ยนสาระสำคัญ ด้วยการแจกแจงของตัวแปรดั้งเดิม น่าจะเป็นหนึ่งที่อาจเกิดขึ้นกับการจำลองที่น่าสนใจมากขึ้นเพื่อแสดงให้เห็นถึงเรื่องนี้ แต่อย่างที่คุณเห็นในตัวอย่างนี้สถิติการทดสอบการสังเกตเป็นอย่างดีด้านนอกของการกระจายที่สร้างขึ้นสำหรับทั้งต้นฉบับPLUMBและเข้าสู่ระบบPLUMB(ซึ่งเป็นมากใกล้กับการแจกแจงแบบปกติ) . แม้ว่าคุณจะสามารถเห็นการกระจายการทดสอบ PLUMB ที่บันทึกไว้ภายใต้ค่า null จะเลื่อนเข้าใกล้สมมาตรประมาณ 0

ป้อนคำอธิบายรูปภาพที่นี่

ฉันจะแนะนำสิ่งนี้เป็นทางเลือกอย่างไรก็ตามเปลี่ยนการกระจายให้เป็นปกติ ฉันก็จะแนะนำให้ค้นหาแหล่งข้อมูลเกี่ยวกับการกรองเชิงพื้นที่ (และสถิติในระดับท้องถิ่นและระดับโลกของ Getis-Ord ในทำนองเดียวกัน) แม้ว่าฉันไม่แน่ใจว่าสิ่งนี้จะช่วยในการวัดขนาดฟรีเช่นกัน (แต่อาจเป็นประโยชน์สำหรับการทดสอบสมมติฐาน) . ฉันจะโพสต์กลับในภายหลังด้วยวรรณกรรมที่น่าสนใจมากขึ้น


ขอบคุณ Andy สำหรับบัญชีรายละเอียดของคุณ หากฉันเข้าใจคุณอย่างถูกต้องคุณหมายความว่าในการทดสอบการเปลี่ยนแปลงสถิติการทดสอบ (Moran I) จะไม่เปลี่ยนแปลงเมื่อเทียบกับการกระจาย MC ที่เกิดขึ้น แต่สิ่งนี้ไม่เห็นด้วยกับการสังเกตของฉัน ตัวอย่างเช่นถ้าเราใช้ตัวแปร HOVAL ในชุดข้อมูล columbus เดียวกันผลการทดสอบ MC Moran I ที่เป็นผลลัพธ์ของ p-value เริ่มต้นจาก 0.029 (ด้วยข้อมูลที่เอียงเดิม) ถึง 0.004 (ด้วยข้อมูลการแปลงบันทึก) เพื่อระบุช่องว่างที่กว้างขึ้นระหว่าง MC สถิติการแจกแจงและการทดสอบ - ไม่สำคัญหากเราตั้งค่าขีด จำกัด ไว้ที่ 1%
MannyG

1
ใช่คุณกำลังตีความประเด็นของฉันอย่างถูกต้อง แน่นอนว่าเป็นไปได้ที่จะพบการวิ่งใด ๆ ที่ผลลัพธ์แตกต่างกัน คำถามจะกลายเป็นว่าอัตราความผิดพลาดจะเหมือนกันหรือไม่ภายใต้สถานการณ์ที่หลากหลาย
Andy W
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.