ความแปรปรวนร่วมที่ใช้ร่วมกันระหว่าง IV ทั้งหมดในสมการการถดถอยเชิงเส้นหลายเชิงเส้นคืออะไร?


10

ในสมการการถดถอยหลายแบบเชิงเส้นหากตุ้มน้ำหนักเบต้าสะท้อนการมีส่วนร่วมของตัวแปรอิสระแต่ละตัวมากกว่าและสูงกว่าการมีส่วนร่วมของ IV อื่น ๆ ทั้งหมดซึ่งในสมการการถดถอยคือความแปรปรวนที่แบ่งปันโดย IV ทั้งหมดที่ทำนาย DV?

ตัวอย่างเช่นหากแผนภาพ Venn แสดงด้านล่าง (และนำมาจากหน้า 'เกี่ยวกับ' ของ CV ที่นี่: https://stats.stackexchange.com/about ) ได้รับการติดป้ายใหม่เป็น 3 IV และ 1 DV พื้นที่ที่มีเครื่องหมายดอกจันจะใส่เข้าไป ในสมการการถดถอยแบบหลายค่า?

ป้อนคำอธิบายรูปภาพที่นี่


4
ฉันไม่เห็นความจำเป็นในการดาวน์สตรีมที่นี่ ฉันคิดว่าคำถามนี้จะเกิดขึ้นกับสิ่งที่เกิดขึ้นในการถดถอยหลายระดับในระดับพื้นฐานและเสนอโอกาสที่จะอธิบายบางสิ่งเกี่ยวกับ MR ที่ไม่เคยมีการพูดถึง
gung - Reinstate Monica

คำตอบ:


8

เพื่อให้เข้าใจว่าแผนภาพนั้นอาจหมายถึงอะไรเราต้องกำหนดบางสิ่ง สมมติว่าแผนภาพ Venn แสดงความแปรปรวนที่ทับซ้อนกัน (หรือแชร์) ระหว่าง 4 ตัวแปรที่แตกต่างกันและเราต้องการที่จะทำนายระดับของโดยขอความช่วยเหลือจาก ,และเรา นั่นคือเราต้องการที่จะสามารถลดความไม่แน่นอน (เช่นความแปรปรวน) ในจากความแปรปรวนแบบ null ไปจนถึงความแปรปรวนที่เหลือ สามารถทำได้ดีแค่ไหน? นั่นคือคำถามที่แผนภาพเวนน์กำลังตอบคุณ WผมkผมDผมก.ก.FโอRยูม.Bล.โอก.Wผมkผม

แต่ละวงกลมแสดงชุดของคะแนนและด้วยจำนวนความแปรปรวน ส่วนใหญ่เราสนใจความแปรปรวนในWผมkผมแต่ตัวเลขยังแสดงความแปรปรวนในตัวทำนายอีกด้วย มีบางสิ่งที่สังเกตได้เกี่ยวกับรูปร่างของเรา ก่อนอื่นตัวแปรแต่ละตัวมีจำนวนความแปรปรวนเท่ากัน - พวกมันมีขนาดเท่ากันหมด (แม้ว่าไม่ใช่ทุกคนที่จะใช้ไดอะแกรมของ Venn เลยทีเดียว) นอกจากนี้ยังมีการทับซ้อนในจำนวนเดียวกัน ฯลฯ ฯลฯ สิ่งสำคัญที่ควรสังเกตคือการมีการเหลื่อมกันระหว่างตัวแปรทำนายที่ดี ซึ่งหมายความว่าพวกเขามีความสัมพันธ์ สถานการณ์นี้เป็นเรื่องธรรมดามากเมื่อต้องรับมือกับข้อมูลทุติยภูมิ (เช่นจดหมายเหตุ) การวิจัยเชิงสังเกตการณ์หรือสถานการณ์การทำนายในโลกแห่งความเป็นจริง ในทางตรงกันข้ามถ้านี่เป็นการทดลองที่ออกแบบมามันอาจจะบอกเป็นนัยถึงการออกแบบหรือการดำเนินการที่ไม่ดี เพื่อดำเนินการกับตัวอย่างนี้ต่อไปอีกสักหน่อยเราจะเห็นว่าความสามารถในการทำนายของเรานั้นอยู่ในระดับปานกลาง ส่วนใหญ่ของความแปรปรวนในWผมkผมยังคงเป็นความแปรปรวนที่เหลือหลังจากการใช้ตัวแปรทั้งหมด (การดูแผนภาพฉันจะเดา . ) สิ่งที่ควรทราบก็คือว่าเมื่อและได้รับการลงนามในรูปแบบบัญชีไม่มีความแปรปรวนในวิกิพีเดียR2.35Dผมก.ก.Bล.โอก.FโอRยูม.Wผมkผม

ตอนนี้หลังจากที่มีแบบจำลองที่มีตัวทำนายหลายตัวผู้คนมักจะต้องการทดสอบตัวทำนายเหล่านั้นเพื่อดูว่าพวกเขาเกี่ยวข้องกับตัวแปรตอบสนองหรือไม่ (แม้ว่าจะยังไม่ชัดเจน ปัญหาของเราคือการทดสอบตัวทำนายเหล่านี้เราต้องแบ่งผลรวมของกำลังสองและเนื่องจากตัวทำนายของเรามีความสัมพันธ์กันจึงมี SS ที่อาจนำมาประกอบกับตัวทำนายมากกว่าหนึ่งตัว ในความเป็นจริงในภูมิภาค asterisked, เอสเอสอาจจะประกอบไปใด ๆของทั้งสามทำนาย ซึ่งหมายความว่าไม่มีพาร์ติชันเฉพาะของ SS และจึงไม่มีการทดสอบที่ไม่ซ้ำกัน วิธีจัดการปัญหานี้ขึ้นอยู่กับประเภทของ SSที่นักวิจัยใช้และคำตัดสินอื่น ๆ ที่ทำโดยนักวิจัย ตั้งแต่การใช้งานซอฟต์แวร์จำนวนมากกลับพิมพ์ III เอสเอสโดยค่าเริ่มต้นหลายคนทิ้งข้อมูลที่มีอยู่ในพื้นที่ทับซ้อนกันโดยไม่ทราบว่าพวกเขาได้ทำสายการตัดสิน ฉันอธิบายปัญหาเหล่านี้แตกต่างกันของเอสเอสและไปลงในรายละเอียดบางอย่างที่นี่

คำถามตามที่ระบุไว้ถามโดยเฉพาะเกี่ยวกับที่ทั้งหมดนี้ปรากฏขึ้นในสมการbetas / การถดถอย คำตอบคือมันไม่ได้ ข้อมูลบางอย่างเกี่ยวกับสิ่งนั้นมีอยู่ในคำตอบของฉันที่นี่ (แม้ว่าคุณจะต้องอ่านระหว่างบรรทัดเล็กน้อย)


สวัสดี Gung ขอขอบคุณสำหรับการโพสต์ มันน่าสนใจมากและเปิดตาของฉันในบางพื้นที่ อย่างไรก็ตามฉันมีปัญหาในการอ่านระหว่างบรรทัดของการโพสต์ที่คุณเชื่อมโยงกับ ดังนั้นคำถามของฉันยังคงอยู่: ในสมการการถดถอยหลายแบบเชิงเส้นหากตุ้มน้ำหนักเบต้าสะท้อนการมีส่วนร่วมของตัวแปรอิสระแต่ละตัวที่มากกว่าการมีส่วนร่วมของ IV อื่น ๆ ทั้งหมดซึ่งในสมการการถดถอยคือความแปรปรวนที่แบ่งปันโดย IV ทั้งหมด ทำนาย DV หรือไม่
Joel W.

ใช่มันจะยากที่จะเห็น ประเด็นคือมีความแตกต่างพื้นฐานระหว่างปัญหาของ 1 วิธีแบ่งพาร์ติชัน SS สำหรับการทดสอบ & 2 ประเมิน betas 1 เกี่ยวกับการแสดง SS ซึ่งตัวทำนาย 2 เลือกค่าที่เหมาะสมที่สุดสำหรับ betas การทับซ้อนปรากฏขึ้นในอดีตไม่ใช่หลัง หากคุณถดถอยWผมkผม บน Dผมก.ก. & บันทึกส่วนที่เหลือจากนั้นจึงคาดการณ์จำนวนที่อยู่อาศัยเหล่านั้น FโอRยูม.& resids-2 ที่บันทึกไว้ ฯลฯ (นี่ไม่เหมาะสม BTW) คุณจะเห็น betas ผันผวนอย่างดุเดือด แต่ Mult Reg ประมาณการ betas ทั้งหมดพร้อมกันดังนั้นจึงไม่ปรากฏขึ้น
gung - Reinstate Monica

หาก "การทับซ้อนปรากฏขึ้นในอดีตไม่ใช่ในภายหลัง" สมการการถดถอยสามารถสะท้อนความแปรปรวนที่ใช้ร่วมกันได้อย่างไร หาก Betas บ่งบอกถึงการมีส่วนร่วมของแต่ละ IV เมื่อผลกระทบของ IV อื่น ๆ ทั้งหมดถูกลบทางสถิติส่วนใดของสูตรการถดถอยจะสะท้อนถึงพลังการทำนายของความแปรปรวนร่วมที่ถูกนำออกไป หรือสมการการถดถอยจะแสดงให้เห็นว่าจะเกิดอะไรขึ้นกับ Y ที่คาดการณ์ไว้ถ้าคุณเพิ่มค่า IV ใดค่าหนึ่งโดย 1 หากการซ้อนทับไม่สะท้อนใน Betas คำถามที่สาม: ในการวิเคราะห์ MR ของข้อมูลที่อยู่ในแผนภาพ Venn Forum = 0 จะเป็นอย่างไร
Joel W.

การทับซ้อนอยู่ในการทดสอบไม่ใช่betas -ฉันไม่แน่ใจว่าจะมีวิธีอื่นอย่างไร แต่ละเบต้าหมายถึงผลกระทบต่อตัวแปรตอบสนองของการเปลี่ยนแปลง 1 หน่วยในตัวแปรร่วมด้วยทุกสิ่งทุกอย่างที่จัดขึ้นอย่างต่อเนื่อง ; เบต้าที่กำหนดจะแทบจะไม่เหมือนกันถ้า covariates อื่นถูกลบออกจากแบบจำลอง หากไดอะแกรม Venn สะท้อนถึงกระบวนการสร้างข้อมูลจริงอย่างแม่นยำแสดงว่ามูลค่าที่แท้จริงสำหรับβF=0แต่โดยทั่วไปแล้วการประมาณการเชิงประจักษ์ไม่เคยมีค่าเท่ากับ 0 ในทางปฏิบัติ
gung - Reinstate Monica

1
@ MarkWhite คำตอบของนักเรียนส่วนใหญ่ก็โอเค คำแถลงว่าเมื่อ X1 & X2 มีความสัมพันธ์อย่างสมบูรณ์ betas ของพวกเขาครึ่งหนึ่งไม่ถูกต้อง เมื่อ r = 1 โมเดลไม่สามารถระบุได้ (cf, here ) เมื่อ r เข้าใกล้ 1, betas โดยประมาณจะขึ้นอยู่กับความสัมพันธ์ในข้อมูลตัวอย่าง & อาจแตกต่างกันอย่างมากจากตัวอย่างไปยังตัวอย่าง
gung - Reinstate Monica

5

Peter Kennedy มีคำอธิบายที่ดีเกี่ยวกับไดอะแกรม Ballentine / Venn สำหรับการถดถอยในหนังสือของเขาและบทความ JSEรวมถึงกรณีที่พวกเขาสามารถทำให้คุณหลงทาง

ส่วนสำคัญคือความแปรปรวนของพื้นที่ที่ติดดาวจะถูกโยนทิ้งไปเพื่อประเมินและทดสอบค่าสัมประสิทธิ์ความชันเท่านั้น การเปลี่ยนแปลงนั้นจะถูกเพิ่มเข้ามาอีกครั้งเพื่อจุดประสงค์ในการทำนายและคำนวณR2.


+1 ฉันจะเพิ่ม "สำหรับการประมาณค่า" และทดสอบ "ค่าสัมประสิทธิ์ความชัน" แต่จุดที่รวมอยู่ในR2เป็นคนดี
gung - Reinstate Monica

แน่นอนและทำ
Dimitriy V. Masterov

พื้นที่ที่ติดดาวใช้ในการคำนวณ y ที่ทำนายไว้หรือไม่ ถ้าเป็นเช่นนั้นพื้นที่ที่ติดดาวจะมีส่วนร่วมในการทำนายที่ y? คำที่ระบุหรือคำใดในสูตรการคาดคะเนสะท้อนพื้นที่ที่ติดดาว
Joel W.

3

ฉันรู้ว่านี่เป็นเธรดที่เก่ามาก แต่เนื่องจากหนึ่งในเพื่อนร่วมงานของฉันถามฉันคำถามเดียวกันนี้ในสัปดาห์นี้และไม่พบสิ่งใดบนเว็บที่ฉันสามารถชี้ให้เขาเห็นได้ฉันคิดว่าฉันจะเพิ่มสองเซ็นต์ "เพื่อลูกหลาน" ที่นี่ ฉันไม่เชื่อว่าคำตอบที่ให้ไว้ในปัจจุบันจะตอบคำถามของ OP

ฉันจะทำให้ปัญหาง่ายขึ้นเพื่อให้มีตัวแปรอิสระเพียงสองตัวเท่านั้น มันตรงไปตรงมามากที่จะขยายไปมากกว่าสอง พิจารณาสถานการณ์สมมติต่อไปนี้: ตัวแปรอิสระสองตัว (X1 และ X2), ตัวแปรตาม (Y), การสังเกต 1,000 ครั้ง, ตัวแปรอิสระสองตัวนั้นมีความสัมพันธ์กันอย่างมาก (r = .99) และตัวแปรอิสระแต่ละตัวมีความสัมพันธ์กับการพึ่งพา ตัวแปร (r = .60) โดยไม่สูญเสียความเป็นมาตรฐานทำให้ทุกตัวแปรเป็นค่าเฉลี่ยของศูนย์และส่วนเบี่ยงเบนมาตรฐานหนึ่งคำดังนั้นการสกัดกั้นจะเป็นศูนย์ในการถดถอยแต่ละครั้ง

การรันการถดถอยเชิงเส้นอย่างง่ายของ Y บน X1 จะสร้าง r-squared ของ. 36 และค่า b1 ที่ 0.6 ในทำนองเดียวกันการรันการถดถอยเชิงเส้นอย่างง่ายของ Y บน X2 จะสร้าง r-squared ของ. 36 และค่า b1 เท่ากับ 0.6

การใช้การถดถอยแบบหลายจุดของ Y บน X1 และ X2 จะสร้าง r-squared เพียงเล็กน้อยกว่า. 36 และ b1 และ b2 รับค่า 0.3 ดังนั้นรูปแบบที่ใช้ร่วมกันใน Y จะถูกบันทึกใน BOTH b1 และ b2 (เท่ากัน)

ฉันคิดว่า OP อาจทำให้สมมติฐานที่เป็นเท็จ (แต่เข้าใจได้ทั้งหมด): นั่นคือเนื่องจาก X1 และ X2 เข้ามาใกล้และใกล้ชิดกับความสัมพันธ์ที่สมบูรณ์แบบมากยิ่งขึ้นค่า b ของพวกเขาในสมการการถดถอยหลายครั้งนั้นเข้ามาใกล้ ไม่เป็นเช่นนั้น ในความเป็นจริงเมื่อ X1 และ X2 เข้ามาใกล้และเข้าใกล้ความสัมพันธ์อย่างสมบูรณ์แบบค่า b ของพวกเขาในการถดถอยหลายครั้งจะเข้ามาใกล้และใกล้เคียงกับ HALF ของ b-value ในการถดถอยเชิงเส้นอย่างง่ายของหนึ่งในนั้น อย่างไรก็ตามในขณะที่ X1 และ X2 เข้ามาใกล้และใกล้ชิดกับความสัมพันธ์ที่สมบูรณ์แบบมาตรฐานข้อผิดพลาดที่ b1 และ b2 นั้นขยับเข้ามาใกล้กับอินฟินิตี้มากขึ้นเรื่อย ๆ ดังนั้นค่า t มาบรรจบกันที่ศูนย์ ดังนั้นค่า t จะมารวมกันที่ศูนย์ (กล่าวคือไม่มีความสัมพันธ์เชิงเส้นที่ไม่ซ้ำกันระหว่าง X1 และ Y หรือ X2 และ Y)

ดังนั้นคำตอบสำหรับคำถามของ OP คือเมื่อความสัมพันธ์ระหว่าง X1 และ X2 เข้าใกล้ความเป็นเอกภาพแต่ละค่าสัมประสิทธิ์ความชันบางส่วนมีส่วนเท่ากันกับการทำนายค่า Y แม้ว่าตัวแปรอิสระจะไม่เสนอคำอธิบายที่ไม่ซ้ำกัน ตัวแปร.

หากคุณต้องการตรวจสอบเชิงประจักษ์นี้ให้สร้างชุดข้อมูลที่ประดิษฐ์ (... ฉันใช้มาโคร SAS ชื่อ Corr2Data.sas ... ) ซึ่งมีคุณสมบัติตามที่อธิบายไว้ข้างต้น ตรวจสอบค่า b ข้อผิดพลาดมาตรฐานและค่า t: คุณจะพบว่าค่าเหล่านั้นตรงตามที่อธิบายไว้ที่นี่

HTH // Phil


1
นี่คือคำอธิบายที่ยอดเยี่ยมขอบคุณ ฉันพยายามจำลองสถานการณ์ที่แตกต่างใน R และฉันได้ข้อสรุปว่าคุณไม่สามารถกำจัดความแปรปรวนที่ใช้ร่วมกันได้ถ้า n มีขนาดใหญ่เกินไปหรือถ้าความสัมพันธ์ระหว่างเอาต์พุต (Y) และการแบ่งปันที่ใช้ร่วมกัน (X1 และ X2 ) สูงเกินไป แต่ทำไมค่า t ถึงสะท้อนสิ่งที่ไม่ใช่การมีส่วนร่วมเฉพาะของ X1 และ X2 เพื่อเริ่มต้นด้วย หากค่า t การถดถอยสะท้อนให้เห็นถึงการมีส่วนร่วมที่ไม่ซ้ำกันของผู้ทำนายเราไม่ควรเห็นความแปรปรวนร่วมที่มีผลต่อค่า t เลย แต่เราก็ทำเช่นนั้น ทำไมถึงเป็นอย่างนั้น?
Galit
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.