จะเกิดอะไรขึ้นถ้าการโต้ตอบลบล้างผลกระทบโดยตรงของฉันในการถดถอย


25

ในการถดถอยคำปฏิสัมพันธ์จะลบล้างผลกระทบโดยตรงที่เกี่ยวข้องทั้งสองอย่าง ฉันจะทิ้งการโต้ตอบหรือรายงานผลลัพธ์หรือไม่ ปฏิสัมพันธ์ไม่ได้เป็นส่วนหนึ่งของสมมติฐานดั้งเดิม


6
คุณอาจได้รับคำตอบที่ดีกว่าถ้าคุณให้รายละเอียดเพิ่มเติมเกี่ยวกับการออกแบบการทดลองคำถามการวิจัยและแบบจำลองทางสถิติ
David LeBauer

ฉันมีข้อมูลการสำรวจ v1 และ v2 ทำนายผลลัพธ์ตามที่คาดไว้ อย่างไรก็ตามการทำงานร่วมกันระหว่าง v1 (dichotomous) และ v2 (5 กลุ่ม) นั้นไม่สำคัญ - และ (คำถามของฉัน) มันทำให้ผลกระทบโดยตรง v1 และ v2 ของฉันไม่สำคัญเช่นกัน ฉันไม่พบตัวอย่างการรายงานสิ่งนี้ในเอกสาร
Jen

หากการโต้ตอบ v1: v2 ไม่สำคัญคุณจำเป็นต้องรวมมันไว้ในโมเดลหรือไม่?
Christopher Aden

บางทีคำถามนี้อาจเกี่ยวข้องหรือไม่ stats.stackexchange.com/questions/5184/…
เกล็น

ความเป็นไปได้อีกประการหนึ่งคือการขัดแย้งที่ขัดแย้งกัน: ตัวอย่างที่ 1: epm.sagepub.com/content/56/3/430.abstractตัวอย่างที่ 2: optimprediction.com/files/pdf/V1A19.pdf
user31256

คำตอบ:


24

ฉันคิดว่าอันนี้ช่างยาก ตามที่คุณพูดถึงมี 'อันตรายทางศีลธรรม' อยู่ที่นี่: หากคุณไม่ได้ดูการโต้ตอบเลยคุณจะเป็นอิสระและชัดเจน แต่ตอนนี้คุณมีข้อสงสัยว่าการขุดลอกข้อมูลจะทำให้เกิดความเสียหายหรือไม่

กุญแจอาจจะเปลี่ยนความหมายของเอฟเฟกต์ของคุณเมื่อคุณเปลี่ยนจากเอฟเฟกต์หลักไปเป็นโมเดลการโต้ตอบเท่านั้น สิ่งที่คุณได้รับสำหรับ 'เอฟเฟ็กต์หลัก' นั้นขึ้นอยู่กับวิธีการรักษาและความแตกต่างของคุณเป็นอย่างมาก ใน R ค่าเริ่มต้นคือการรักษาที่แตกต่างกับระดับปัจจัยแรก (คนที่มีชื่อแรกตามลำดับตัวอักษรยกเว้นว่าคุณได้ออกนอกทางเพื่อให้รหัสพวกเขาแตกต่างกัน) เป็นระดับพื้นฐาน

พูด (เพื่อความง่าย) ว่าคุณมีสองระดับคือ 'การควบคุม' และ 'trt' สำหรับแต่ละปัจจัย หากไม่มีการโต้ตอบความหมายของพารามิเตอร์ 'v1.trt' (สมมติว่าการรักษาแตกต่างเหมือนกับที่เป็นค่าเริ่มต้นใน R) คือ "ความแตกต่างเฉลี่ยระหว่างกลุ่ม 'v1.control' และ 'v1.trt' กลุ่ม"; ความหมายของพารามิเตอร์ 'v2.trt' คือ "ความแตกต่างเฉลี่ยระหว่าง 'v2.control' และ 'v2.trt'"

ด้วยการโต้ตอบ 'v1.trt' คือความแตกต่างเฉลี่ยระหว่าง 'v1.control' และ 'v1.trt' ในกลุ่ม 'v2.control'และในทำนองเดียวกัน 'v2.trt' คือความแตกต่างเฉลี่ยระหว่างกลุ่ม v2 ใน กลุ่ม 'v1.control' ดังนั้นหากคุณมีผลการรักษาค่อนข้างน้อยในแต่ละกลุ่มควบคุม แต่มีผลกระทบมากในกลุ่มการรักษาคุณสามารถเห็นสิ่งที่คุณเห็นได้อย่างง่ายดาย

วิธีเดียวที่ฉันสามารถเห็นสิ่งนี้เกิดขึ้นโดยไม่มีการโต้ตอบอย่างมีนัยสำคัญอย่างไรก็ตามถ้าเอฟเฟกต์ทั้งหมดค่อนข้างอ่อนแอ (ดังนั้นสิ่งที่คุณหมายถึงโดย "เอฟเฟ็กต์ที่หายไป" คือคุณไปจาก p = 0.06 ถึง p = 0.04 ข้ามเส้นนัยสำคัญเวทมนต์)

ความเป็นไปได้อีกอย่างหนึ่งก็คือคุณกำลัง 'ใช้ความเป็นอิสระมากเกินไป' - นั่นคือการประมาณพารามิเตอร์นั้นไม่ได้เปลี่ยนแปลงมากนัก แต่เทอมผิดพลาดที่เหลือนั้นสูงเกินจริงพอโดยประมาณอีก 4 [= (2- 1) * (5-1)] พารามิเตอร์ที่คำสำคัญของคุณไม่สำคัญ อีกครั้งฉันจะคาดหวังสิ่งนี้ด้วยชุดข้อมูลขนาดเล็ก / ผลกระทบที่ค่อนข้างอ่อนแอ

วิธีแก้ปัญหาหนึ่งที่เป็นไปได้คือการย้ายไปยังผลต่างความขัดแย้งแม้ว่านี่จะเป็นเรื่องละเอียดอ่อน - คุณต้องมั่นใจว่า สิ่งที่ดีที่สุดคือการพล็อตข้อมูลของคุณและดูค่าสัมประสิทธิ์และทำความเข้าใจกับสิ่งที่เกิดขึ้นในแง่ของพารามิเตอร์โดยประมาณ

หวังว่าจะช่วย


4
ไม่มีอันตรายทางศีลธรรม การคำนวณเอฟเฟ็กต์หลักที่มีการโต้ตอบรวมค่อนข้างแตกต่างจากการคำนวณโดยไม่ได้ คุณต้องทำแบบจำลองเพิ่มเติมเพื่อรายงานเอฟเฟกต์หลักแล้วรวมถึงการโต้ตอบในโมเดลแยกต่างหากต่อไป คุณไม่สนใจเอฟเฟกต์หลักในโมเดลที่มีการโต้ตอบกันเพราะมันไม่ได้เป็นเอฟเฟกต์หลัก ๆ แต่เป็นเอฟเฟกต์ในระดับที่เฉพาะเจาะจงของตัวทำนายอื่น ๆ (รวมถึงการโต้ตอบ)
John

John: ใครจะโดยตรรกะที่ยังละเว้นคำปฏิสัมพันธ์ในรูปแบบการประเมินผลการทำงานร่วมกันเป็นกำลังสอง / ผลการกลั่นกรอง (เช่นรวมถึง (1) ผลกระทบหลัก (2) การมีปฏิสัมพันธ์ระหว่างผลกระทบหลักเหล่านั้นและ (3) ระยะกำลังสอง สำหรับหนึ่งในเอฟเฟกต์หลักและเอฟเฟกต์ curvilinear (การกลั่นกรอง))
Bento

11

คุณแน่ใจหรือว่าตัวแปรได้รับการแสดงออกอย่างเหมาะสม? พิจารณาสองตัวแปรอิสระและX 2 คำแถลงปัญหาอ้างว่าคุณได้รับแบบที่ดีในแบบฟอร์มX1X2

Y=β0+β12X1X2+ϵ

หากมีหลักฐานบางอย่างว่าความแปรปรวนของค่าตกค้างเพิ่มขึ้นด้วยรูปแบบที่ดีกว่านี้จะใช้ข้อผิดพลาดหลายแบบซึ่งรูปแบบหนึ่งคือY

Y=β0+(β12X1X2)δ

สามารถเขียนใหม่ได้

log(Yβ0)=log(β12)+log(X1)+log(X2)+log(δ);

นั่นคือถ้าคุณแสดงตัวแปรของคุณอีกครั้งในแบบฟอร์ม

η=log(Yβ0)ξ1=log(X1)ξ2=log(X2)ζ=log(δ)N(0,σ2)

จากนั้นแบบจำลองจะเป็นแบบเชิงเส้นและมีแนวโน้มที่จะมีสารตกค้างแบบ homoscedastic:

η=γ0+γ1ξ1+γ2ξ2+ζ,

γ1γ2

β0Y

β0β0

Y=(θ1+X1)(θ2+X2)+ϵ

θ1θ2=β0θ1θ2θ1X2θ2X1ϵ

การวิเคราะห์นี้แสดงให้เห็นว่าเป็นไปได้อย่างไร - อาจเป็นไปได้ว่าในบางแอพพลิเคชั่น - จะมีรูปแบบที่เอฟเฟกต์ที่ดูเหมือนจะเป็นการโต้ตอบ สิ่งนี้เกิดขึ้นเมื่อมีการนำเสนอตัวแปร (อิสระขึ้นอยู่กับหรือทั้งสองอย่าง) ให้คุณในรูปแบบที่ไม่เหมาะสมและลอการิทึมของพวกเขาเป็นเป้าหมายที่มีประสิทธิภาพมากขึ้นสำหรับการสร้างแบบจำลอง การแจกแจงของตัวแปรและค่าเริ่มต้นให้เบาะแสที่จำเป็นในการตรวจสอบว่านี่อาจเป็นกรณี: การแจกแจงแบบเบ้ของตัวแปรและความแตกต่างแบบเฮเทอโรเซดีซิสติตี้ของส่วนที่เหลือ (โดยเฉพาะ


อืมม ทั้งหมดนี้ดูเหมือนจะเป็นไปได้ แต่ซับซ้อนกว่าโซลูชันของฉัน (ความคิดเห็นเกี่ยวกับคำถามเดิมแนะนำว่าตัวทำนายมีทั้งหมวดหมู่) แต่ตามปกติคำตอบคือ "ดูข้อมูล" (หรือส่วนที่เหลือ)
Ben Bolker

1
@Ben ฉันเห็นด้วย แต่ฉันไม่เข้าใจว่าการรับรู้ของ "ความซับซ้อนมากขึ้น" นั้นมาจากไหนเพราะการวิเคราะห์การแจกแจงที่ไม่แปรเปลี่ยนและการวิเคราะห์เศษเหลือทิ้งนั้นมีความสำคัญในแบบฝึกหัดการถดถอย งานพิเศษที่จำเป็นเท่านั้นที่นี่คือการคิดเกี่ยวกับความหมายของการวิเคราะห์เหล่านี้
whuber

1
บางทีโดย "ซับซ้อนมากขึ้น" ฉันแค่หมายถึง "ในประสบการณ์ของฉันฉันได้เห็นปัญหาที่ฉันอ้างถึงในคำตอบของฉัน (การเข้ารหัสตรงกันข้าม) เกิดขึ้นบ่อยกว่าที่คุณอ้างถึง (ไม่เพิ่ม -) แต่นี่เป็น แถลงการณ์เกี่ยวกับประเภทของข้อมูล / คนที่ฉันทำงานด้วยไม่ใช่เกี่ยวกับโลกใบนี้
Ben Bolker

5

Y=β0+β1X1+β2X2+β3(X1X2)=(b0+b2X2)+(b1+b3X2)X1

สิ่งนี้มักจะแนะนำความหลากสีสูงเนื่องจากผลิตภัณฑ์จะมีความสัมพันธ์อย่างมากกับตัวแปรดั้งเดิมทั้งสอง ด้วยความสัมพันธ์หลายทางการประมาณพารามิเตอร์แต่ละรายการขึ้นอยู่กับตัวแปรอื่น ๆ ที่พิจารณาเช่นในกรณีของคุณ ในฐานะที่เป็นเคาน์เตอร์ - มาตรการศูนย์มักจะลดความหลากหลายของความสัมพันธ์เมื่อพิจารณาร่วมกันเป็นตัวแปร

ฉันไม่แน่ใจว่าสิ่งนี้จะนำไปใช้กับกรณีของคุณโดยตรงเนื่องจากคุณดูเหมือนจะมีตัวทำนายหมวดหมู่ แต่ใช้คำว่า "การถดถอย" แทนที่จะเป็น "ANOVA" แน่นอนว่ากรณีหลังเป็นแบบเดียวกัน แต่หลังจากเลือกรูปแบบการเข้ารหัสความคมชัดตามที่เบ็นอธิบาย


5

นี่อาจเป็นปัญหาของการตีความความเข้าใจผิดในสิ่งที่เรียกว่าสัมประสิทธิ์ "ผลกระทบโดยตรง" ที่แท้จริงคืออะไร

ในแบบจำลองการถดถอยที่มีตัวแปรทำนายอย่างต่อเนื่องและไม่มีเงื่อนไขการโต้ตอบนั่นคือไม่มีเงื่อนไขที่สร้างขึ้นเป็นผลคูณของเงื่อนไขอื่น ๆ - สัมประสิทธิ์ของตัวแปรแต่ละตัวคือความชันของพื้นผิวการถดถอยในทิศทางของตัวแปรนั้น มันคงที่โดยไม่คำนึงถึงค่าของตัวแปรและเห็นได้ชัดว่าเป็นการวัดผลกระทบของตัวแปรนั้น

ในโมเดลที่มีการโต้ตอบนั่นคือด้วยคำที่สร้างขึ้นเป็นผลิตภัณฑ์ของคำศัพท์อื่น - การตีความนั้นสามารถทำได้โดยไม่ต้องมีการรับรองเพิ่มเติมสำหรับตัวแปรที่ไม่เกี่ยวข้องกับการโต้ตอบใด ๆ ค่าสัมประสิทธิ์ของตัวแปรที่จะมีส่วนร่วมในการโต้ตอบเป็นความลาดเอียงของพื้นผิวการถดถอยในทิศทางของตัวแปรนั้นเมื่อค่าของตัวแปรทั้งหมดที่ติดต่อกับตัวแปรในคำถามเป็นศูนย์และการทดสอบความสำคัญของค่าสัมประสิทธิ์หมายถึง ความชันของพื้นผิวการถดถอยเฉพาะในพื้นที่ของพื้นที่ตัวทำนายนั้น. เนื่องจากไม่มีข้อกำหนดว่าจะมีข้อมูลในพื้นที่ของพื้นที่นั้นค่าสัมประสิทธิ์ผลกระทบที่เห็นได้ชัดอาจมีความคล้ายคลึงกับความลาดชันของพื้นผิวการถดถอยในพื้นที่ของพื้นที่ทำนายซึ่งสังเกตข้อมูลได้จริง ในกรณีเช่นนี้จะไม่มี "ผลกระทบโดยตรง" สิ่งทดแทนที่ดีที่สุดน่าจะเป็น "เอฟเฟ็กต์เฉลี่ย": ความชันของพื้นผิวการถดถอยในทิศทางของตัวแปรที่เป็นปัญหาซึ่งถูกถ่ายในแต่ละจุดข้อมูลและเฉลี่ยทั่วทุกจุดข้อมูล สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ให้ดูที่เหตุใดการกำหนดตัวแปรอิสระให้อยู่ตรงกลางสามารถเปลี่ยนเอฟเฟกต์หลักด้วยการควบคุมได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.