เหตุใดการรวมละติจูดและลองจิจูดในบัญชี GAM สำหรับความสัมพันธ์เชิงพื้นที่อัตโนมัติ


60

ฉันสร้างแบบจำลองสารเติมแต่งทั่วไปสำหรับการตัดไม้ทำลายป่า เพื่ออธิบายความสัมพันธ์เชิงพื้นที่ฉันได้รวมละติจูดและลองจิจูดไว้ในรูปแบบการโต้ตอบที่ราบรื่น (เช่น s (x, y))

ฉันใช้การอ่านบทความจำนวนมากซึ่งผู้เขียนบอกว่า 'เพื่ออธิบายความสัมพันธ์เชิงพื้นที่โดยอัตโนมัติพิกัดของจุดถูกรวมไว้ในรูปแบบที่ราบรื่น' แต่สิ่งเหล่านี้ไม่เคยอธิบายว่าทำไมสิ่งนี้ถึงเกิดขึ้นจริง มันค่อนข้างน่าผิดหวัง ฉันได้อ่านหนังสือทั้งหมดที่ฉันสามารถหาได้ใน GAM โดยหวังว่าจะได้คำตอบ แต่ส่วนใหญ่ (เช่นโมเดลเสริมทั่วไป, บทนำด้วย R, SN Wood) เพียงแค่สัมผัสกับเรื่องโดยไม่อธิบาย

ฉันจะซาบซึ้งจริง ๆ ถ้ามีใครสามารถอธิบายได้ว่าทำไมการรวมบัญชีละติจูดและลองจิจูดสำหรับการเปลี่ยนแปลงเชิงพื้นที่และสิ่งที่ 'การบัญชี' สำหรับมันหมายถึงจริงๆ - เป็นเพียงพอที่จะรวมไว้ในรูปแบบหรือถ้าคุณเปรียบเทียบแบบจำลองด้วย s (x, y) และโมเดลที่ไม่มี? และความเบี่ยงเบนที่อธิบายโดยคำนี้ระบุขอบเขตของความสัมพันธ์เชิงพื้นที่อัตโนมัติหรือไม่?


หากมีความเกี่ยวข้องฉันใช้ฟังก์ชัน 'bam' จากแพ็คเกจ 'mgcv' ใน R.
gisol

นอกจากนี้ฉันได้ทดสอบความสัมพันธ์เชิงพื้นที่ด้วย Moran I.
gisol


3
เมื่อได้รับคำตอบที่นี่เราอาจตั้งค่าสถานะลิงก์ Q @Macro อื่น ๆ ให้เป็นสำเนาที่ซ้ำกันดังนั้นผู้คนที่เข้ามาจะเห็นคำตอบได้ที่นี่
Gavin Simpson

+1 @GavinSimpson - อย่างไรก็ตามโปรดทราบว่าคุณมีอำนาจในการลงคะแนนอย่างใกล้ชิดซึ่งเพียงพอที่จะนำไปสู่คำถามสองข้อที่ถูกรวมเข้าด้วยกัน
มาโคร

คำตอบ:


38

ประเด็นหลักในแบบจำลองทางสถิติคือข้อสันนิษฐานที่หนุนขั้นตอนการอนุมานใด ๆ ในรูปแบบที่คุณอธิบายส่วนที่เหลือจะถือว่าเป็นอิสระ หากพวกเขามีการพึ่งพาเชิงพื้นที่และนี่ไม่ใช่แบบจำลองในส่วนของรูปแบบ sytematic ส่วนที่เหลือจากแบบจำลองนั้นก็จะแสดงการพึ่งพาเชิงพื้นที่หรือในคำอื่น ๆ ที่พวกเขาจะ autocorated สัมพันธ์เชิงพื้นที่ การพึ่งพาเช่นนี้จะทำให้ทฤษฎีที่สร้างค่า p จากสถิติการทดสอบใน GAM เป็นโมฆะตัวอย่างเช่น คุณไม่สามารถเชื่อถือค่า p ได้เนื่องจากค่าเหล่านั้นถูกคำนวณโดยสมมติว่าเป็นอิสระ

คุณมีสองตัวเลือกหลักในการจัดการข้อมูลดังกล่าว i) จำลองแบบการพึ่งพาเชิงพื้นที่ในส่วนที่เป็นระบบของแบบจำลองหรือ ii) ผ่อนคลายสมมติฐานของความเป็นอิสระและประเมินความสัมพันธ์ระหว่างส่วนที่เหลือ

i) คือสิ่งที่พยายามทำโดยการรวมตำแหน่งพื้นที่ในโมเดลให้ราบรื่น ii) จำเป็นต้องมีการประมาณค่าเมทริกซ์สหสัมพันธ์ของส่วนที่เหลือบ่อยครั้งในระหว่างการปรับแบบจำลองโดยใช้กระบวนการเช่นกำลังสองน้อยที่สุด วิธีการอย่างใดอย่างหนึ่งของวิธีการเหล่านี้จัดการกับการพึ่งพาเชิงพื้นที่จะขึ้นอยู่กับลักษณะ & ความซับซ้อนของการพึ่งพาเชิงพื้นที่และวิธีการที่ง่ายสามารถเป็นแบบจำลอง

โดยสรุปหากคุณสามารถจำลองแบบการพึ่งพาเชิงพื้นที่ระหว่างการสังเกตจากนั้นส่วนที่เหลือมีแนวโน้มที่จะเป็นตัวแปรสุ่มที่เป็นอิสระและดังนั้นจึงไม่ละเมิดสมมติฐานของกระบวนการอนุมานใด ๆ


ขอบคุณสำหรับคำตอบที่ชัดเจนของคุณกาวิน อะไรทำให้ความสัมพันธ์เชิงพื้นที่สัมพันธ์โดยพื้นฐานแตกต่างจากการไล่ระดับสีใด ๆ ที่ไม่รวมอยู่ในตัวแบบ สมมติว่าพื้นที่ศึกษาของคุณอยู่บนเนินเขาที่ลาดชันและสิ่งมีชีวิตที่น่าสนใจซึ่งเป็นที่อยู่อาศัยที่ต่ำกว่าต้องการที่อยู่อาศัยที่สูงขึ้น หากไม่รวมระดับความสูงในแบบจำลองจะทำให้โครงสร้างในส่วนที่เหลืออยู่ใช่หรือไม่ มันเป็นเพียงแค่ความสัมพันธ์เชิงพื้นที่สัมพันธ์ (หรือถูก) ลืมเกี่ยวกับหรือไม่ได้รับการพิจารณา? (PS อาจเป็นตัวอย่างที่ดีเนื่องจากมี lat รวมอยู่ด้วยและจะทำให้เกิดผลกระทบนี้ด้วยเช่นกัน)
gisol

4
ใช่. ฉันสงสัยว่าในตัวอย่างที่คุณได้ดูทั้งองค์ประกอบเชิงพื้นที่เป็นที่สนใจดังนั้นถูกสร้างแบบจำลองอย่างชัดเจนผ่านทาง lat / lon หรือองค์ประกอบเชิงพื้นที่เป็นคำที่น่ารำคาญ "ส่วนประกอบนั้นดีกว่าในการสร้างแบบจำลองผ่านตัวแปรอื่น (เช่นระดับความสูงในความคิดเห็นของคุณ) จากนั้นตัวแปรที่ราบรื่นจะถูกนำมาใช้แทนตำแหน่งเชิงพื้นที่
Gavin Simpson

1
ทำไมต้องเรียบ "เรียบ" หมายถึงอะไรกันแน่?
Julian

1
@Julian Values ​​ของการตอบสนองนั้นราบรื่นเมื่อเทียบกับพิกัดเชิงพื้นที่ 2 ตัว หรือใส่อีกวิธีหนึ่งผลเชิงพื้นที่นั้นประมาณว่าเป็นฟังก์ชัน 2 มิติที่ราบรื่น โดยความราบรื่นเราหมายถึงมีความบาง wigginess วัดโดยอนุพันธ์สองที่สองรวมของเส้นโค้ง Wigginess ถูกเลือกเพื่อปรับสมดุลให้พอดีและความซับซ้อนของแบบจำลอง หากคุณต้องการทราบว่ารูปแบบการทำงานที่ราบรื่น (เส้นโค้ง) นั้นเกิดขึ้นได้อย่างไรมันอาจคุ้มค่าที่จะถามคำถามเฉพาะ
Gavin Simpson

55

"ความสัมพันธ์เชิงพื้นที่" หมายถึงสิ่งต่าง ๆ กับคนต่าง ๆ แม้ว่าแนวคิดที่ครอบคลุมนั้นคือปรากฏการณ์ที่สังเกตที่ตำแหน่งอาจขึ้นอยู่กับ (c) covariates, (b) ตำแหน่งที่ตั้งและ (c) ค่าของสถานที่ใกล้เคียง (ในกรณีที่คำจำกัดความทางเทคนิคแตกต่างกันไปในประเภทของข้อมูลที่กำลังพิจารณาสิ่งที่ "แน่นอน" คือสิ่งที่ถูกกล่าวอ้างและสิ่งที่ "ใกล้เคียง" หมายถึง: สิ่งเหล่านี้จะต้องทำเชิงปริมาณเพื่อดำเนินการต่อ)z

หากต้องการดูว่าเกิดอะไรขึ้นลองพิจารณาตัวอย่างง่ายๆของแบบจำลองเชิงพื้นที่เพื่ออธิบายภูมิประเทศของภูมิภาค ให้ระดับความสูงวัดที่จุดเป็นY ( Z ) แบบจำลองที่เป็นไปได้อย่างหนึ่งคือyขึ้นอยู่กับวิธีทางคณิตศาสตร์ที่แน่นอนบางอย่างบนพิกัดของzซึ่งฉันจะเขียน( z 1 , z 2 )ในสถานการณ์สองมิตินี้ ปล่อยให้εเป็นตัวแทน (ความเป็นอิสระสมมุติฐาน) เบี่ยงเบนระหว่างการสังเกตและแบบจำลอง (ซึ่งตามปกติจะถือว่ามีความคาดหวังเป็นศูนย์) เราอาจเขียนzy(z)yz(z1,z2)ε

y(z)=β0+β1z1+β2z2+ε(z)

สำหรับรูปแบบแนวโน้มเชิงเส้น แนวโน้มเชิงเส้น (แสดงโดยสัมประสิทธิ์และβ 2 ) เป็นวิธีหนึ่งในการจับภาพความคิดที่ว่าค่าใกล้เคียงy ( z )และy ( z )สำหรับzใกล้กับzควรมีแนวโน้มใกล้กัน . เราสามารถคำนวณได้โดยพิจารณาจากค่าที่คาดหวังของขนาดของความแตกต่างระหว่างy ( z )และy ( z ) , E [ | Yβ1β2y(z)y(Z')ZZ'Y(Z)Y(Z') . ปรากฎว่าคณิตศาสตร์นั้นง่ายกว่ามากถ้าเราใช้การวัดความแตกต่างเล็กน้อย: แทนเราคำนวณความแตกต่างกำลังสองที่คาดไว้:E[|Y(Z)-Y(Z')|]

E[(y(z)y(z))2]=E[(β0+β1z1+β2z2+ε(z)(β0+β1z1+β2z2+ε(z)))2]=E[(β1(z1z1)+β2(z2z2)+ε(z)ε(z))2]=E[(β1(z1z1)+β2(z2z2))2+2(β1(z1z1)+β2(z2z2))(ε(z)ε(z))+(ε(z)ε(z))2]=(β1(z1z1)+β2(z2z2))2+E[(ε(z)ε(z))2]

รุ่นนี้เป็นฟรีอัตเชิงพื้นที่ใด ๆ อย่างชัดเจนเนื่องจากมีระยะในการได้โดยตรงที่เกี่ยวข้องไม่มีให้เป็นค่าที่อยู่บริเวณใกล้เคียงY ( Z ' )Y(Z)Y(Z')

อีกทางเลือกหนึ่งที่แตกต่างกันโมเดลจะละเว้นแนวโน้มเชิงเส้นและคาดว่าจะมีความสัมพันธ์อัตโนมัติเท่านั้น วิธีการหนึ่งที่จะทำคือผ่านโครงสร้างของการเบี่ยงเบน ) เราอาจวางตัวว่าε(Z)

Y(Z)=β0+ε(Z)

และบัญชีสำหรับความคาดหมายของความสัมพันธ์ของเราเราจะถือว่าชนิดของ "โครงสร้างแปรปรวน" บางอย่างสำหรับεสำหรับเรื่องนี้จะมีความหมายเชิงพื้นที่เราจะถือว่าแปรปรวนระหว่างε ( Z )และε ( Z ' )เท่ากับE [ ε ( Z ) ε ( Z ' ) ]เพราะεมีศูนย์หมายถึงมีแนวโน้มที่จะลดลงเมื่อZและzมากขึ้นเรื่อย ๆ เนื่องจากรายละเอียดไม่สำคัญเราจะเรียกความแปรปรวนร่วมC นี้εε(z)ε(z)E[ε(z)ε(z)]εzz ) นี่คือความสัมพันธ์เชิงพื้นที่อัตโนมัติ อันที่จริงความสัมพันธ์ (เพียร์สัน) ระหว่าง y ( z )และ y ( z )คือC(z,z)y(z)y(z)

ρ(y(z),y(z))=C(z,z)C(z,z)C(z,z).

ในสัญกรณ์นี้ความแตกต่างกำลังสองก่อนหน้านี้ที่คาดหวังของสำหรับรุ่นแรกคือy

E[(y(z)y(z))2]=(β1(z1z1)+β2(z2z2))2+E[(ε(z)ε(z))2]=(β1(z1z1)+β2(z2z2))2+C1(z,z)+C1(z,z)

(สมมติว่า ) เนื่องจากεที่สถานที่ต่างกันถูกสันนิษฐานว่าเป็นอิสระ ฉันได้เขียนC 1แทนCเพื่อระบุว่านี่เป็นฟังก์ชันความแปรปรวนร่วมสำหรับโมเดลแรกzzεC1C

เมื่อ covariances ของไม่แตกต่างกันอย่างมากจากสถานที่หนึ่งไปยังอีก (ที่จริงพวกเขามักจะสันนิษฐานว่าจะเป็นคงที่), สมการนี้แสดงให้เห็นว่าแตกต่าง squared คาดว่าในปี 's เพิ่มขึ้น quadratically กับระยะห่างระหว่างZและZ ' จำนวนเงินที่แท้จริงของการเพิ่มขึ้นจะถูกกำหนดโดยค่าสัมประสิทธิ์แนวโน้มβ 0และเบต้า 1εyzzβ0β1

y

E[(y(z)y(z))2]=E[(β0+ε(z)(β0+ε(z)))2]=E[(ε(z)ε(z))2]=E[ε(z)22ε(z)ε(z)+ε(z)2]=C2(z,z)2C2(z,z)+C2(z,z).

C2(z,z)zzy

E[(y(z)y(z))2](β1(z1z1)+β2(z2z2))22C2(z,z)Ci(z,z)

ε) ในทางปฏิบัติแบบจำลองรวมทั้งสองวิธี รูปแบบใดที่คุณเลือกนั้นขึ้นอยู่กับสิ่งที่คุณต้องการจะทำอย่างไรกับแบบจำลองและมุมมองของคุณว่าการเกิดอัตชีวประวัติเชิงพื้นที่เกิดขึ้นได้อย่างไรไม่ว่าจะเป็นแนวโน้มโดยนัยหรือความผันแปรที่คุณต้องการพิจารณาแบบสุ่ม ไม่มีใครถูกต้องเสมอและในปัญหาใดก็ตามมักใช้โมเดลทั้งสองแบบเพื่อวิเคราะห์ข้อมูลทำความเข้าใจปรากฏการณ์และทำนายค่าของมันที่ตำแหน่งอื่น (การแก้ไข)


2
+1 - ดีใจที่ได้เห็นลิงก์ระหว่างสองวิธีในการจัดการการพึ่งพาเชิงพื้นที่ คำตอบที่ดี whuber!
แมโคร

ครอบคลุมมากขอบคุณ ฉันจะใช้เวลาสักครู่ในการคิดทั้งหมดนี้
gisol

6
หากการเขียนเชิงสถิติทั้งหมดเป็นของตระกูลนี้จะมีงานสถิติประยุกต์ที่ใช้ความคิดที่ชัดเจนมากขึ้นในโลก ทำอย่างสวยงาม
Ari B. Friedman

ฉันเข้าใจคำตอบนี้อย่างถูกต้องหรือไม่เมื่อฉันได้รับจากนั้นเพียงแค่เพิ่ม X / Y-พิกัดเป็นตัวแปรอิสระให้กับรูปแบบใด ๆ (?!) จะบัญชีสำหรับพื้นที่สัมพันธ์อัตโนมัติในระดับหนึ่ง?
Julian

1
@ จูเลียน: เรากำลังพูดถึงการสร้างแบบจำลองที่แตกต่างกันสำหรับข้อมูลเดียวกัน หากคุณรวมพิกัด X และ Y เป็นตัวแปรอธิบาย แต่ไม่รวมถึงความสัมพันธ์เชิงพื้นที่ดังนั้น "ความสัมพันธ์เชิงพื้นที่" จึงไม่มีเหตุผลสำหรับรุ่นนี้ดังนั้นเราจึงต้องระมัดระวังเกี่ยวกับสิ่งที่เราหมายถึงโดย "บัญชีสำหรับความสัมพันธ์เชิงพื้นที่" แต่ถ้าเราเข้าใจคำถามของคุณเพื่อถามว่าการรวมพิกัดเป็นตัวแปรอธิบายได้อย่างมีประสิทธิภาพเช่นเดียวกับการสร้างแบบจำลองที่สัมพันธ์เชิงพื้นที่อย่างชัดเจนแล้วคำตอบของฉันคือ "ใช่บ่อยครั้งที่เป็นกรณี"
whuber

0

คำตอบอื่น ๆ เป็นสิ่งที่ดีฉันแค่อยากจะเพิ่มอะไรบางอย่างเกี่ยวกับ 'การบัญชีสำหรับ' ความสัมพันธ์เชิงพื้นที่อัตโนมัติ บางครั้งการเรียกร้องนี้ถูกสร้างขึ้นอย่างมากตามแนวของ "การบัญชีเกี่ยวกับความสัมพันธ์เชิงพื้นที่อัตโนมัติที่ไม่ได้อธิบายโดย covariates"

สิ่งนี้สามารถนำเสนอภาพที่ทำให้เข้าใจผิดเกี่ยวกับสิ่งที่พื้นที่เรียบทำ มันไม่เหมือนกับว่ามีคิวบางอย่างเป็นระเบียบในความเป็นไปได้ที่คนที่ใจเย็นรอคอยพวก covariates ก่อนและจากนั้นความราบรื่นจะซับส่วนที่ไม่ได้อธิบาย ในความเป็นจริงพวกเขาทุกคนมีโอกาสอธิบายข้อมูล

บทความนี้มีชื่อที่เหมาะเจาะนำเสนอปัญหาอย่างชัดเจนถึงแม้ว่ามันจะมาจากมุมมองของรูปแบบ CAR หลักการที่ใช้กับ GAM smooths

การเพิ่มข้อผิดพลาดเชิงพื้นที่สัมพันธ์สามารถทำให้เอฟเฟ็กต์คงที่ที่คุณรัก

'การแก้ปัญหา' ในกระดาษคือการทำให้ส่วนที่เหลือราบเรียบแทนที่จะทำให้พื้นที่เรียบ นั่นจะมีผลต่อการอนุญาตให้โควาเรียตของคุณอธิบายสิ่งที่พวกเขาสามารถทำได้ แน่นอนว่ามีแอปพลิเคชั่นมากมายซึ่งสิ่งนี้จะไม่ใช่ทางออกที่พึงปรารถนา


-2

ความสัมพันธ์เชิงพื้นที่เป็นเพียงความสัมพันธ์ระหว่างพิกัด x และ y กับขนาดของพื้นผิวที่เกิดขึ้นในอวกาศ ดังนั้นความสัมพันธ์อัตโนมัติระหว่างพิกัดสามารถแสดงในแง่ของความสัมพันธ์การทำงานระหว่างจุดที่อยู่ใกล้เคียง


1
สวัสดี Michael ขอบคุณสำหรับคำตอบ ฉันคิดว่าฉันเข้าใจสิ่งที่คุณพูด แต่ดูเหมือนว่าจะเป็นคำอธิบายเกี่ยวกับความสัมพันธ์เชิงพื้นที่มากกว่าการรวมพิกัดเข้ากับมัน - ฉันอาจคิดถึงจุดของคุณ ตัวอย่างเช่นสมมติว่าฉันมี 2 รุ่นรุ่นแรก (A) ที่มีคำเดียว - การตัดไม้ทำลายป่าเป็นฟังก์ชันของระยะทางไปยังเมืองหลวงและรุ่นที่สอง (B) ที่มีระยะทางถึงคำเมืองหลวง แต่ยังมี lat และ long วาระ คุณจะย้ำคำตอบของคุณในบริบทนี้หรือไม่? บางทีฉันอาจเข้าใจได้ดีกว่า
gisol

1
ฉันคิดว่าถ้าไม่มีคำตอบในโมเดลความสัมพันธ์เชิงพื้นที่อัตโนมัติระหว่างจุดที่อยู่ใกล้เคียงคือ 0 เมื่อคุณมีคำซ้ำคำศัพท์นั้นคำนั้นจะเป็นตัวกำหนดค่าของความสัมพันธ์เชิงพื้นที่อัตโนมัติ
Michael Chernick

4
@Michael ความสัมพันธ์เชิงพื้นที่อัตโนมัติหมายความว่าความสัมพันธ์ระหว่างจุดขึ้นอยู่กับตำแหน่งเชิงพื้นที่ของพวกเขา ฉันคิดว่าคำตอบนี้จะมีประโยชน์มากขึ้นถ้าคุณสามารถอธิบายได้ว่าทำไมการใช้ฟังก์ชั่นการประมาณที่ราบรื่นโดยตำแหน่งเชิงพื้นที่เป็นอินพุตบัญชีสำหรับสิ่งนี้ บนพื้นผิวดูเหมือนว่าฟังก์ชั่นที่ราบรื่นจะจำลองค่าเฉลี่ยในขณะที่ความสัมพันธ์เชิงพื้นที่สัมพันธ์หมายถึงโครงสร้างความแปรปรวนร่วม ฉันรู้ว่ามีความสัมพันธ์ระหว่างฟังก์ชันความแปรปรวนร่วมของกระบวนการที่ราบรื่นและการประมาณฟังก์ชันที่ราบรื่น แต่โดยไม่ทำการเชื่อมต่อนั้นคำตอบนี้ดูเหมือนจะไม่สมบูรณ์
มาโคร

1
@Michael แน่นอนคุณจะเห็นว่าการทำพิกัดละติจูด / ลองจิจูดมีผลต่อค่าเฉลี่ยนั้นแตกต่างจากการสร้างแบบจำลองความสัมพันธ์ระหว่างจุดสองจุดในอวกาศ ... ผู้ปฏิบัติการถามวิธีจำลองแบบเชิงพื้นที่สัมพันธ์และฉันคิดว่าเป็นส่วนหนึ่งของการโต้แย้ง - ส่วนที่ อธิบายได้อย่างชัดเจนว่าการปรับพื้นผิวเชิงพื้นที่ให้เรียบ (ซึ่งเป็นรูปแบบของสารเติมแต่งทั่วไปในพิกัดจะทำอย่างไร) เป็นตัวกำหนดความสัมพันธ์เชิงพื้นที่ มีความสัมพันธ์ระหว่างฟังก์ชัน gams และความแปรปรวนร่วม (ฉันไม่รู้ว่าจะแม่นยำมากขึ้น) แต่การดึงดูดความสัมพันธ์นั้นดูเหมือนจะเป็นสิ่งที่จำเป็นสำหรับที่นี่
มาโคร

1
@Marco ฉันจะดูหนังสือของ Simon Wood ถ้าคุณทำได้เพราะมันมีรายละเอียดและอ้างอิงวรรณกรรมที่เกี่ยวข้องกับความราบรื่นเป็นบิตเอฟเฟกต์แบบสุ่ม
Gavin Simpson
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.