แบบจำลองการถดถอยและความสัมพันธ์เชิงพื้นที่


15

ฉันใช้ OLS และ GWR เพื่อตรวจสอบความถูกต้องของการพึ่งพาระหว่างสองฐานข้อมูลที่แตกต่างกัน จัตุรัสที่เหลือสำหรับ GWR คือ 0.82 และทำให้เป็นรูปแบบการถดถอยที่ถูกต้องเพื่อใช้ในการกำหนดความสัมพันธ์ระหว่างชุดข้อมูลสองชุด

สิ่งที่ฉันอยากรู้ว่า GWR เป็น Local Regression และ OLS เป็น Global Regression ซึ่งควรใช้ที่ไหนและเมื่อไหร่?

มันหมายความว่าอย่างไรถ้าโมแรนฉันสำหรับรุ่น GWR นั้นสุ่ม?

คำตอบ:


13

ขั้นตอนเหล่านี้คืออะไร

แม้ว่าOLSและGWR จะแบ่งปันสูตรการสถิติของพวกเขาหลายแง่มุม แต่ก็ถูกใช้เพื่อจุดประสงค์ที่แตกต่างกัน:

  • OLS อย่างเป็นทางการสร้างแบบจำลองความสัมพันธ์ระดับโลกของการจัดเรียงเฉพาะ ในรูปแบบที่ง่ายที่สุดแต่ละเร็กคอร์ด (หรือกรณี) ในชุดข้อมูลประกอบด้วยค่า, x, ตั้งค่าโดยผู้ทดลอง (มักเรียกว่า "ตัวแปรอิสระ") และค่าอื่น, y ซึ่งสังเกตได้ ("ตัวแปรตาม" ) OLS สมมติว่า y มีค่าประมาณเกี่ยวข้องกับ x ในวิธีที่ง่ายโดยเฉพาะอย่างยิ่ง: กล่าวคือมีตัวเลข 'a' และ 'b' ซึ่งมี a + b * x จะเป็นการประมาณที่ดีของ y สำหรับค่าทั้งหมดของ x ซึ่งผู้ทดลองอาจสนใจ . "การประมาณที่ดี" ยอมรับว่าค่าของ y สามารถและจะแตกต่างจากการทำนายทางคณิตศาสตร์ใด ๆ เพราะ (1) พวกเขาทำจริง - ธรรมชาติไม่ค่อยง่ายเท่าสมการทางคณิตศาสตร์ - และ (2) y วัดด้วยบาง ความผิดพลาด นอกเหนือจากการประเมินค่าของ a และ b แล้ว OLS ยังคำนวณปริมาณของความแปรปรวนใน y สิ่งนี้ทำให้ความสามารถของ OLS ในการสร้างนัยสำคัญทางสถิติของพารามิเตอร์ a และ b

นี่คือ OLS พอดี:

ป้อนคำอธิบายรูปภาพที่นี่

  • GWR ใช้เพื่อสำรวจความสัมพันธ์ในท้องถิ่น ในการตั้งค่านี้ยังคงมีคู่ (x, y) แต่ตอนนี้ (1) โดยทั่วไปทั้ง x และ y ถูกสังเกต - ไม่สามารถกำหนดล่วงหน้าได้โดยผู้ทดลอง - และ (2) แต่ละระเบียนมีเชิงพื้นที่ z . สำหรับตำแหน่งใด ๆz (ไม่จำเป็นแม้แต่ที่ซึ่งมีข้อมูล), GWR ใช้อัลกอริทึม OLS กับค่าข้อมูลเพื่อนบ้านเพื่อประเมินความสัมพันธ์เฉพาะตำแหน่งระหว่าง y และ x ในรูปแบบ y = a (z) + b (z) * x สัญกรณ์ "(z)" เน้นว่าค่าสัมประสิทธิ์ a และ b แตกต่างกันไปตามสถานที่ต่างๆ ด้วยเหตุนี้ GWR จึงเป็นรุ่นพิเศษของเครื่องปรับถ่วงน้ำหนักแบบเฉพาะที่ซึ่งมีการใช้เฉพาะพิกัดเชิงพื้นที่เพื่อกำหนดย่านที่คุ้นเคย เอาต์พุตใช้เพื่อแนะนำว่าค่าของ x และ y covary ทั่วทั้งภูมิภาคเป็นอย่างไร เป็นที่น่าสังเกตว่าบ่อยครั้งที่ไม่มีเหตุผลให้เลือก 'x' และ 'y' ซึ่งควรเล่นบทบาทของตัวแปรอิสระและตัวแปรตามในสมการ แต่เมื่อคุณสลับบทบาทเหล่านี้ผลลัพธ์จะเปลี่ยน ! นี่คือหนึ่งในหลายเหตุผลที่ GWR ควรได้รับการพิจารณาเชิงสำรวจ - เป็นเครื่องช่วยด้านภาพและแนวคิดในการทำความเข้าใจข้อมูล - แทนที่จะเป็นวิธีการที่เป็นทางการ

นี่คือน้ำหนักเรียบในพื้นที่ สังเกตว่ามันสามารถติดตาม "wiggles" ที่เห็นได้ชัดในข้อมูล แต่ไม่ผ่านทุกจุด (มันสามารถทำให้ผ่านจุดหรือทำตาม wiggles ขนาดเล็กโดยการเปลี่ยนการตั้งค่าในขั้นตอนเหมือนกับ GWR สามารถทำตามข้อมูลเชิงพื้นที่มากขึ้นหรือน้อยลงโดยการเปลี่ยนการตั้งค่าในขั้นตอนของมัน)

Lowess

โดยสังเขปให้คิดว่า OLS เหมาะสมกับรูปร่างที่แข็ง (เช่นเส้น) กับสแกตเตอร์ล็อตของ (x, y) และ GWR เพื่อให้รูปร่างนั้นกระดิกโดยพลการ

เลือกระหว่างพวกเขา

ในกรณีปัจจุบันแม้ว่าจะไม่ชัดเจนว่า "ฐานข้อมูลที่แตกต่างกันสองฐาน" อาจหมายถึงอะไร แต่ดูเหมือนว่าการใช้ OLS หรือ GWR เพื่อ "ตรวจสอบ" ความสัมพันธ์ระหว่างพวกเขาอาจไม่เหมาะสม ตัวอย่างเช่นหากฐานข้อมูลแสดงถึงการสังเกตอย่างอิสระในปริมาณเดียวกันในสถานที่ตั้งเดียวกันดังนั้น (1) OLS อาจไม่เหมาะสมเนื่องจากทั้ง x (ค่าในฐานข้อมูลหนึ่ง) และ y (ค่าในฐานข้อมูลอื่น) ควรเป็น คิดว่าแตกต่างกัน (แทนที่จะคิดว่า x และคงที่และเป็นตัวแทนที่ถูกต้อง) และ (2) GWR เป็นสิ่งที่ดีสำหรับการสำรวจความสัมพันธ์ระหว่าง x และ y แต่มันไม่สามารถใช้ในการตรวจสอบสิ่ง: รับประกันว่าจะได้รับความสัมพันธ์ นอกจากนี้ยังเป็นข้อสังเกตก่อนหน้านี้บทบาทสมมาตรของ "สองฐานข้อมูล" แสดงให้เห็นว่าทั้งจะได้รับการเลือกให้เป็น 'X' และอื่น ๆ ที่เป็น 'Y' ที่นำไปสู่ทั้งสองมีผล GWR เป็นไปได้ที่จะรับประกันว่าจะแตกต่างกัน

นี่คือความเรียบของถ่วงน้ำหนักในพื้นที่ของข้อมูลเดียวกันกลับบทบาทของ x และ y เปรียบเทียบสิ่งนี้กับพล็อตก่อนหน้า: สังเกตดูว่าขนาดโดยรวมที่ชันมากแค่ไหนและมันต่างกันอย่างไรในรายละเอียดเช่นกัน

Lowess 2

ต้องใช้เทคนิคที่แตกต่างกันในการสร้างว่าฐานข้อมูลสองแห่งนั้นให้ข้อมูลเดียวกันหรือประเมินอคติสัมพัทธ์หรือความแม่นยำสัมพัทธ์ การเลือกเทคนิคขึ้นอยู่กับคุณสมบัติทางสถิติของข้อมูลและวัตถุประสงค์ของการตรวจสอบ ตัวอย่างเช่นฐานข้อมูลการวัดทางเคมีมักจะถูกเปรียบเทียบโดยใช้เทคนิคการสอบเทียบเทคนิคการสอบเทียบ

การตีความ Moran I

เป็นการยากที่จะบอกว่า "โมแรนฉันสำหรับรุ่น GWR" หมายถึงอะไร ฉันเดาว่าสถิติ I ของ Moran อาจถูกคำนวณสำหรับส่วนที่เหลือของการคำนวณ GWR (ส่วนที่เหลือคือความแตกต่างระหว่างค่าจริงและค่าติดตั้ง) โมแรนฉันเป็นตัวชี้วัดระดับความสัมพันธ์เชิงพื้นที่ ถ้ามันมีขนาดเล็กแสดงว่าการแปรผันระหว่างค่า y และ GWR เหมาะสมกับค่า x นั้นมีความสัมพันธ์เชิงพื้นที่เพียงเล็กน้อยหรือไม่มีเลย เมื่อ GWR ถูก "ปรับ" ข้อมูล (สิ่งนี้เกี่ยวข้องกับการตัดสินใจในสิ่งที่ถือว่าเป็น "เพื่อนบ้าน" ของจุดใด ๆ ), ความสัมพันธ์เชิงพื้นที่ต่ำในส่วนที่เหลือจะต้องคาดหวังเพราะ GWR (โดยปริยาย) หาประโยชน์จากความสัมพันธ์เชิงพื้นที่ระหว่าง x และ y ค่าในอัลกอริทึมของมัน


ดังนั้นใน GWR คุณบอกว่าการย้อนกลับตัวแปรให้ผลลัพธ์ที่ต่างกัน แต่สิ่งที่ให้สแควร์ที่เหลือสูงกว่าไม่ได้หมายความว่ามันจะแสดงความสัมพันธ์ที่แข็งแกร่งระหว่างทั้งสองหรือไม่?
Sam007

แซมจัตุรัสที่เหลือน้อยในตัวมันเองไม่ได้บ่งบอกถึงความสัมพันธ์ที่แข็งแกร่ง โดยเฉพาะอย่างยิ่งเมื่อคุณย้อนกลับบทบาทของ x และ y คุณไม่สามารถเปรียบเทียบสี่เหลี่ยมจัตุรัสที่เหลือได้ - พวกมันมักอยู่ในหน่วยต่างกัน (เช่นหนึ่งอาจจะมีอุณหภูมิตารางและอื่น ๆ ที่อาจจะเป็นจำนวนเงินที่ตารางของปริมาณน้ำฝน: วิธีคุณจะบอกเป็นที่หนึ่งที่ต่ำกว่า) คุณสามารถเสมอลดตารางที่เหลือโดยรวมทั้งพารามิเตอร์อื่น ๆ ในรูปแบบแม้ว่าพวกเขาจะไม่มีความหมาย : การไปไกลเกินไปในทิศทางนี้เรียกว่า "overfitting" ในบางแง่ GWR ที่มีช่วงอวกาศสั้น ๆ เป็นรูปแบบของการล้น
whuber

2
คุณอาจคิดถึง R-squared แซม: มันเป็นอัตราส่วน (ฉันเข้าใจว่า "ส่วนที่เหลือกำลังสอง" จะเป็นสิ่งที่มันบอก: ผลรวมของส่วนที่เหลือของสแควร์ซอฟแวร์สถิติส่วนใหญ่รายงานสถิตินี้พร้อมกับค่า R - กำลังสอง) แต่ก็ยังคงเป็นอันตรายและมักจะผิด เป็นปีในแง่ของ x กับ x ในแง่ของ y) ในแง่ของ R-squared: ดูstats.stackexchange.com/questions/13314 เนื่องจาก GWR เป็นแบบสำรวจมันยอดเยี่ยมสำหรับการค้นหารูปแบบและการตั้งสมมติฐานความสัมพันธ์ แต่ (ตามปกติแล้วอย่างไรก็ตาม) จึงไม่เหมาะสมสำหรับการอ้างสิทธิ์ที่แน่ชัด
whuber

1
ว้าวนั่นเป็นสถิติทั้งหมดจริงๆ จริงๆแล้วเหตุผลที่ฉันพบว่ามันยากคือ becoz ฉันมีภูมิหลังที่แย่มากในด้านสถิติดังนั้นฉันจึงพึ่งพาผลของแบบจำลองโดยไม่เข้าใจว่ามันหมายถึงอะไร ส่วนใหญ่ของสิ่งต่าง ๆ ใน R2 ไปทั่วหัวของฉัน คุณสามารถแนะนำหนังสือผู้เริ่มต้นที่ดีเพื่อให้ฉันเริ่มต้นและสร้างรากฐานของฉันในสถิติได้หรือไม่?
Sam007

2
ลองเหล่านี้: stats.stackexchange.com/questions/25506 , stats.stackexchange.com/questions/421และstats.stackexchange.com/questions/7165
whuber

3

Rsquared ไม่ควรใช้เพื่อเปรียบเทียบแบบจำลอง ใช้บันทึกความน่าจะเป็นหรือค่า AIC

หากส่วนที่เหลือของคุณใน GWR เป็นแบบสุ่มหรือฉันคิดว่าดูเหมือนจะสุ่ม (ไม่ใช่ sig ทางสถิติ) กว่าที่คุณอาจมีรูปแบบที่ระบุ อย่างน้อยก็แนะนำว่าคุณไม่ได้มีส่วนที่เหลือที่มีความสัมพันธ์กันและควรแนะนำว่าคุณไม่มีตัวแปรที่ละเว้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.