สัมประสิทธิ์การถดถอยที่พลิกสัญญาณหลังจากรวมตัวทำนายอื่น ๆ


31

จินตนาการ

  • คุณรันการถดถอยเชิงเส้นพร้อมตัวทำนายตัวเลขสี่ตัว (IV1, ... , IV4)
  • เมื่อมีเพียง IV1 เท่านั้นที่รวมเป็นตัวทำนายค่าเบต้ามาตรฐานคือ +.20
  • เมื่อคุณรวม IV2 ถึง IV4 เครื่องหมายของสัมประสิทธิ์การถดถอยมาตรฐานของ IV1 พลิกไปที่-.25(เช่นมันจะกลายเป็นค่าลบ)

สิ่งนี้ก่อให้เกิดคำถามสองสามข้อ:

  • เกี่ยวกับคำศัพท์คุณเรียกสิ่งนี้ว่า "เอฟเฟกต์การยับยั้ง" หรือไม่?
  • คุณจะใช้กลยุทธ์อะไรในการอธิบายและเข้าใจผลกระทบนี้?
  • คุณมีตัวอย่างของผลกระทบดังกล่าวในทางปฏิบัติและคุณอธิบายและเข้าใจผลกระทบเหล่านี้ได้อย่างไร

คุณจะอธิบายสถานการณ์ที่สัมประสิทธิ์เปลี่ยนสัญญาณอย่างไรเมื่อรวมตัวทำนาย แต่มีความไม่สัมพันธ์กันหลายทาง (เช่นค่า VIF ต่ำแนะนำ) แม้ว่าที่น่าสนใจเมื่อรวมถึงผู้ทำนายสัญญาณเปลี่ยนไปเป็นสิ่งที่ฉันคาดว่าในตอนแรกมันจะเป็น (บวก) มันเป็นค่าลบในการถดถอยตัวแปรอิสระเพียงตัวเดียว (เมทริกซ์ความสัมพันธ์แสดงความสัมพันธ์เชิงลบน้อยที่สุดกับตัวแปรตาม) แต่กลับกลายเป็นบวกทันทีเมื่อรวมกับตัวทำนายอื่น ๆ

@John คุณสามารถลบความคิดเห็นของคุณและโพสต์คำถามของคุณเป็นคำถามแยกต่างหากในเว็บไซต์นี้ (เช่นใช้ "ถามคำถามขึ้นด้านบน" หากคุณรู้สึกว่าคำถามของคุณเกี่ยวข้องกับคำถามนี้ให้เพิ่มลิงก์ไปยังคำถามนี้ใน คำถามของคุณใหม่.
Jeromy Anglim

2
กระดาษที่ฉันเขียนด้วย Seth Dutter อาจช่วยอธิบายสิ่งต่าง ๆ ได้ มันเขียนส่วนใหญ่มาจากมุมมองทางเรขาคณิต นี่คือลิงค์: arxiv.org/abs/1503.02722 - Brian Knaeble, B. , & Dutter, S. (2015) การกลับตัวของการประมาณกำลังสองน้อยที่สุดและการประมาณแบบอิสระสำหรับทิศทางของเอฟเฟกต์ที่ไม่ซ้ำ พิมพ์ล่วงหน้า arXiv arXiv: 1503.02722

คำตอบ:


26

Multicollinearity เป็นสิ่งต้องสงสัยตามปกติที่ JoFrhwld พูดถึง โดยทั่วไปหากตัวแปรของคุณมีความสัมพันธ์เชิงบวกแล้วค่าสัมประสิทธิ์จะมีความสัมพันธ์เชิงลบซึ่งอาจนำไปสู่สัญญาณที่ไม่ถูกต้องในหนึ่งในค่าสัมประสิทธิ์

หนึ่งการตรวจสอบคือการทำการถดถอยส่วนประกอบหลักหรือการถดถอยของสันเขา สิ่งนี้จะช่วยลดมิติของพื้นที่การถดถอย คุณจบด้วยการประเมินแบบเอนเอียง แต่อาจมี MSE ที่ต่ำกว่าและสัญญาณที่ถูกต้อง ไม่ว่าคุณจะไปกับผลลัพธ์ที่เฉพาะเจาะจงเหล่านั้นหรือไม่ก็เป็นการตรวจวินิจฉัยที่ดี หากคุณยังคงได้รับการเปลี่ยนแปลงเครื่องหมายมันอาจน่าสนใจในทางทฤษฎี

UPDATE

การติดตามความคิดเห็นในคำตอบของ John Christie อาจเป็นเรื่องที่น่าสนใจ การพลิกกลับในการรวมกลุ่ม (ขนาดหรือทิศทาง) เป็นตัวอย่างของความขัดแย้งของซิมป์สัน, ความขัดแย้งของลอร์ดและผลการปราบปราม ความแตกต่างเกี่ยวข้องกับชนิดของตัวแปรเป็นหลัก มันมีประโยชน์มากกว่าที่จะเข้าใจปรากฏการณ์พื้นฐานมากกว่าที่จะคิดในแง่ของ "ความขัดแย้ง" หรือผลกระทบ สำหรับมุมมองเชิงสาเหตุกระดาษด้านล่างทำหน้าที่อธิบายได้ดีว่าทำไมและฉันจะเสนอความยาวในการแนะนำและสรุปเพื่อกระตุ้นความอยากอาหารของคุณ

Tu et al นำเสนอการวิเคราะห์ความเท่ากันของความขัดแย้งสามข้อสรุปว่าทั้งสามเพียงแค่ย้ำถึงการเปลี่ยนแปลงที่ไม่น่าแปลกใจในความสัมพันธ์ของตัวแปรสองตัวใด ๆ เมื่อมีการควบคุมตัวแปรที่สามสำหรับสถิติ ฉันเรียกสิ่งนี้ว่าน่าแปลกใจเพราะการกลับรายการหรือการเปลี่ยนแปลงขนาดนั้นเป็นเรื่องปกติในการวิเคราะห์ตามเงื่อนไข เพื่อหลีกเลี่ยงอย่างใดอย่างหนึ่งเราจะต้องหลีกเลี่ยงการวิเคราะห์ตามเงื่อนไขทั้งหมด มันเกี่ยวกับความขัดแย้งของซิมป์สันและลอร์ดหรือผลการปราบปรามเกินกว่าที่พวกเขาชี้ให้เห็นอย่างชัดเจนซึ่งดึงดูดความสนใจเป็นระยะ ๆ และบางครั้งผลประโยชน์ของผู้ตื่นตกใจที่เห็นในวรรณคดีคืออะไร?

[ ... ]

สรุปได้ว่าไม่สามารถเน้นมากไปกว่านั้นได้แม้ว่าความขัดแย้งของซิมป์สันและผู้ที่เกี่ยวข้องเปิดเผยถึงอันตรายของการใช้เกณฑ์ทางสถิติเพื่อเป็นแนวทางในการวิเคราะห์เชิงสาเหตุพวกเขาไม่ได้อธิบายถึงปรากฏการณ์ที่พวกเขาอ้างว่าเป็นตัวชี้หรือชี้ คำอธิบายและการแก้ปัญหาอยู่ในการใช้เหตุผลเชิงสาเหตุซึ่งต้องอาศัยความรู้พื้นฐานไม่ใช่เกณฑ์ทางสถิติ มันเป็นเวลาสูงที่เราหยุดการรักษาอาการและอาการตีความผิด ๆ ('ความขัดแย้ง') และดำเนินการกับธุรกิจในการจัดการกับโรค ('เวรกรรม') เราควรหันความสนใจไปที่ปัญหาตลอดกาลของการคัดเลือก covariate สำหรับการวิเคราะห์เชิงสาเหตุโดยใช้ข้อมูลที่ไม่ใช่การทดลอง


1
ขอบคุณสำหรับคำแนะนำในการสำรวจสันหรือการถดถอย PCA เพียงแค่จุดด้านข้างเกี่ยวกับความคิดเห็นของคุณ "หากตัวแปรของคุณมีความสัมพันธ์เชิงบวกแล้วค่าสัมประสิทธิ์จะมีความสัมพันธ์เชิงลบเพื่อนำไปสู่การกลับรายการ": โดยปกติแล้วตัวทำนายที่มีความสัมพันธ์เชิงบวกจะไม่นำไปสู่
Jeromy Anglim

ขออภัยนั่นเป็นคำอธิบายหนึ่งบรรทัดที่เขียนไม่เรียบร้อยในความรีบเร่ง แก้ไขแล้วขอบคุณ
ARS

จุดที่ดีเกี่ยวกับความสำคัญของกลไกเชิงสาเหตุ
Jeromy Anglim

14

ฉันเชื่อว่าเอฟเฟ็กต์เช่นนี้มักเกิดจากความรู้สึกร่วมกัน (ดูคำถามนี้ ) ฉันคิดว่าหนังสือเกี่ยวกับการสร้างแบบจำลองหลายระดับโดย Gelman และ Hill พูดถึงมัน ปัญหาคือว่าIV1มีความสัมพันธ์กับหนึ่งหรือมากกว่าหนึ่งทำนายอื่น ๆ และเมื่อพวกเขาทั้งหมดรวมอยู่ในรูปแบบการประเมินของพวกเขากลายเป็นเอาแน่เอานอนไม่ได้

ถ้าค่าสัมประสิทธิ์การพลิกเกิดขึ้นเนื่องจากความสัมพันธ์แบบ Collinearity ก็ไม่น่าสนใจจริงๆที่จะรายงานเพราะมันไม่ได้เกิดจากความสัมพันธ์ระหว่างตัวทำนายของคุณกับผลลัพธ์ แต่จริงๆแล้วเป็นเพราะความสัมพันธ์ระหว่างตัวทำนาย

สิ่งที่ฉันได้เห็นข้อเสนอแนะเพื่อแก้ไขปัญหานี้คือการตกค้าง ครั้งแรกที่คุณพอดีกับแบบจำลองสำหรับแล้วใช้เวลาที่เหลือของรูปแบบที่เป็นIV2 ~ IV1 rIV2หากตัวแปรทั้งหมดของคุณมีความสัมพันธ์กันคุณควรทำให้พวกเขาเหลือทั้งหมด คุณสามารถเลือกทำเช่นนี้

rIV2 <- resid(IV2 ~ IV1)
rIV3 <- resid(IV3 ~ IV1 + rIV2)
rIV4 <- resid(IV4 ~ IV1 + rIV2 + rIV3)

ตอนนี้พอดีกับรุ่นสุดท้ายด้วย

DV ~ IV1 + rIV2 + rIV3 + rIV4

ตอนนี้ค่าสัมประสิทธิ์สำหรับrIV2แสดงให้เห็นถึงผลกระทบที่เป็นอิสระจากที่กำหนดความสัมพันธ์ของตนกับIV2 IV1ฉันได้ยินมาว่าคุณจะไม่ได้รับผลลัพธ์ที่เหมือนกันหากคุณตกค้างในลำดับที่แตกต่างกันและการเลือกคำสั่งซื้อที่ตกค้างนั้นเป็นการเรียกการตัดสินในการวิจัยของคุณ


ขอบคุณสำหรับคำตอบ. ฉันมีความคิดเหล่านี้ (a) ความหลากสี: ฉันเห็นด้วย ไม่ว่าค่าสัมประสิทธิ์ไม่ควรเปลี่ยนแปลง (b) มันน่าสนใจใช่ไหม ฉันคิดว่าการพลิกสัญญาณอาจมีการตีความทางทฤษฎีที่น่าสนใจในบางกรณี แต่อาจไม่ได้มาจากมุมมองการทำนายที่บริสุทธิ์ (c) การตกค้าง: ฉันอยากได้ยินสิ่งที่คนอื่นคิดเกี่ยวกับวิธีการนี้
Jeromy Anglim

ฉันไม่แน่ใจว่า multicollinearity น่าสนใจหรือไม่ ว่าคุณมีผลบางส่วนOและการพยากรณ์ของคุณและIncome Father's Incomeความจริงที่ว่าIncomeมีความสัมพันธ์กับFather's Incomeเป็นที่น่าสนใจยิ่ง Oแต่ความจริงที่ว่าจะเป็นจริงไม่ว่าค่าของ นั่นคือคุณสามารถพิสูจน์ได้ว่าการOคาดการณ์ของทุกคนอยู่ในแนวเดียวกันโดยไม่ต้องรวบรวมข้อมูลผลลัพธ์ของคุณหรือแม้แต่รู้ว่าผลลัพธ์คืออะไร! ข้อเท็จจริงเหล่านั้นไม่ควรจะได้รับโดยเฉพาะอย่างยิ่งน่าสนใจมากขึ้นเมื่อคุณรู้ว่ามันO Education
JoFrhwld

ฉันแนะนำว่าผลของการยับยั้งนั้นน่าสนใจในทางทฤษฎีซึ่งน่าจะเป็นความหลากหลายทางสัณฐานวิทยาเป็นจุดเริ่มต้นสำหรับคำอธิบาย
Jeromy Anglim

5

ดูซิมป์สัน Paradox ในระยะสั้นเอฟเฟกต์หลักที่สังเกตสามารถย้อนกลับได้เมื่อเพิ่มการโต้ตอบในโมเดล ที่หน้าเชื่อมโยงตัวอย่างส่วนใหญ่เป็นหมวดหมู่ แต่มีตัวเลขที่ด้านบนของหน้าซึ่งสามารถจินตนาการได้อย่างต่อเนื่อง ตัวอย่างเช่นหากคุณมีตัวพยากรณ์หมวดหมู่และแบบต่อเนื่องตัวทำนายแบบต่อเนื่องสามารถพลิกสัญญาณได้อย่างง่ายดายหากมีการเพิ่มหมวดหมู่และในแต่ละหมวดหมู่สัญลักษณ์นั้นจะแตกต่างจากคะแนนโดยรวม


จุดดี. ตัวอย่างทั้งหมดของ Simpson's Paradox นำไปใช้กับตัวแปรเด็ดขาด แนวคิดของตัวแปร supressor นั้นเทียบเท่ากับตัวเลขหรือไม่?
Jeromy Anglim
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.