จะเกิดอะไรขึ้นถ้าการโต้ตอบลบล้างผลกระทบโดยตรงของฉันในการถดถอย

25

ในการถดถอยคำปฏิสัมพันธ์จะลบล้างผลกระทบโดยตรงที่เกี่ยวข้องทั้งสองอย่าง ฉันจะทิ้งการโต้ตอบหรือรายงานผลลัพธ์หรือไม่ ปฏิสัมพันธ์ไม่ได้เป็นส่วนหนึ่งของสมมติฐานดั้งเดิม

regression interaction

— เจน
แหล่งที่มา

6

คุณอาจได้รับคำตอบที่ดีกว่าถ้าคุณให้รายละเอียดเพิ่มเติมเกี่ยวกับการออกแบบการทดลองคำถามการวิจัยและแบบจำลองทางสถิติ

— David LeBauer

ฉันมีข้อมูลการสำรวจ v1 และ v2 ทำนายผลลัพธ์ตามที่คาดไว้ อย่างไรก็ตามการทำงานร่วมกันระหว่าง v1 (dichotomous) และ v2 (5 กลุ่ม) นั้นไม่สำคัญ - และ (คำถามของฉัน) มันทำให้ผลกระทบโดยตรง v1 และ v2 ของฉันไม่สำคัญเช่นกัน ฉันไม่พบตัวอย่างการรายงานสิ่งนี้ในเอกสาร

— Jen

หากการโต้ตอบ v1: v2 ไม่สำคัญคุณจำเป็นต้องรวมมันไว้ในโมเดลหรือไม่?

— Christopher Aden

บางทีคำถามนี้อาจเกี่ยวข้องหรือไม่ stats.stackexchange.com/questions/5184/…

— เกล็น

ความเป็นไปได้อีกประการหนึ่งคือการขัดแย้งที่ขัดแย้งกัน: ตัวอย่างที่ 1: epm.sagepub.com/content/56/3/430.abstractตัวอย่างที่ 2: optimprediction.com/files/pdf/V1A19.pdf

— user31256

24

ฉันคิดว่าอันนี้ช่างยาก ตามที่คุณพูดถึงมี 'อันตรายทางศีลธรรม' อยู่ที่นี่: หากคุณไม่ได้ดูการโต้ตอบเลยคุณจะเป็นอิสระและชัดเจน แต่ตอนนี้คุณมีข้อสงสัยว่าการขุดลอกข้อมูลจะทำให้เกิดความเสียหายหรือไม่

กุญแจอาจจะเปลี่ยนความหมายของเอฟเฟกต์ของคุณเมื่อคุณเปลี่ยนจากเอฟเฟกต์หลักไปเป็นโมเดลการโต้ตอบเท่านั้น สิ่งที่คุณได้รับสำหรับ 'เอฟเฟ็กต์หลัก' นั้นขึ้นอยู่กับวิธีการรักษาและความแตกต่างของคุณเป็นอย่างมาก ใน R ค่าเริ่มต้นคือการรักษาที่แตกต่างกับระดับปัจจัยแรก (คนที่มีชื่อแรกตามลำดับตัวอักษรยกเว้นว่าคุณได้ออกนอกทางเพื่อให้รหัสพวกเขาแตกต่างกัน) เป็นระดับพื้นฐาน

พูด (เพื่อความง่าย) ว่าคุณมีสองระดับคือ 'การควบคุม' และ 'trt' สำหรับแต่ละปัจจัย หากไม่มีการโต้ตอบความหมายของพารามิเตอร์ 'v1.trt' (สมมติว่าการรักษาแตกต่างเหมือนกับที่เป็นค่าเริ่มต้นใน R) คือ "ความแตกต่างเฉลี่ยระหว่างกลุ่ม 'v1.control' และ 'v1.trt' กลุ่ม"; ความหมายของพารามิเตอร์ 'v2.trt' คือ "ความแตกต่างเฉลี่ยระหว่าง 'v2.control' และ 'v2.trt'"

ด้วยการโต้ตอบ 'v1.trt' คือความแตกต่างเฉลี่ยระหว่าง 'v1.control' และ 'v1.trt' ในกลุ่ม 'v2.control'และในทำนองเดียวกัน 'v2.trt' คือความแตกต่างเฉลี่ยระหว่างกลุ่ม v2 ใน กลุ่ม 'v1.control' ดังนั้นหากคุณมีผลการรักษาค่อนข้างน้อยในแต่ละกลุ่มควบคุม แต่มีผลกระทบมากในกลุ่มการรักษาคุณสามารถเห็นสิ่งที่คุณเห็นได้อย่างง่ายดาย

วิธีเดียวที่ฉันสามารถเห็นสิ่งนี้เกิดขึ้นโดยไม่มีการโต้ตอบอย่างมีนัยสำคัญอย่างไรก็ตามถ้าเอฟเฟกต์ทั้งหมดค่อนข้างอ่อนแอ (ดังนั้นสิ่งที่คุณหมายถึงโดย "เอฟเฟ็กต์ที่หายไป" คือคุณไปจาก p = 0.06 ถึง p = 0.04 ข้ามเส้นนัยสำคัญเวทมนต์)

ความเป็นไปได้อีกอย่างหนึ่งก็คือคุณกำลัง 'ใช้ความเป็นอิสระมากเกินไป' - นั่นคือการประมาณพารามิเตอร์นั้นไม่ได้เปลี่ยนแปลงมากนัก แต่เทอมผิดพลาดที่เหลือนั้นสูงเกินจริงพอโดยประมาณอีก 4 [= (2- 1) * (5-1)] พารามิเตอร์ที่คำสำคัญของคุณไม่สำคัญ อีกครั้งฉันจะคาดหวังสิ่งนี้ด้วยชุดข้อมูลขนาดเล็ก / ผลกระทบที่ค่อนข้างอ่อนแอ

วิธีแก้ปัญหาหนึ่งที่เป็นไปได้คือการย้ายไปยังผลต่างความขัดแย้งแม้ว่านี่จะเป็นเรื่องละเอียดอ่อน - คุณต้องมั่นใจว่า สิ่งที่ดีที่สุดคือการพล็อตข้อมูลของคุณและดูค่าสัมประสิทธิ์และทำความเข้าใจกับสิ่งที่เกิดขึ้นในแง่ของพารามิเตอร์โดยประมาณ

หวังว่าจะช่วย

— เบลเกอร์
แหล่งที่มา

4

ไม่มีอันตรายทางศีลธรรม การคำนวณเอฟเฟ็กต์หลักที่มีการโต้ตอบรวมค่อนข้างแตกต่างจากการคำนวณโดยไม่ได้ คุณต้องทำแบบจำลองเพิ่มเติมเพื่อรายงานเอฟเฟกต์หลักแล้วรวมถึงการโต้ตอบในโมเดลแยกต่างหากต่อไป คุณไม่สนใจเอฟเฟกต์หลักในโมเดลที่มีการโต้ตอบกันเพราะมันไม่ได้เป็นเอฟเฟกต์หลัก ๆ แต่เป็นเอฟเฟกต์ในระดับที่เฉพาะเจาะจงของตัวทำนายอื่น ๆ (รวมถึงการโต้ตอบ)

— John

John: ใครจะโดยตรรกะที่ยังละเว้นคำปฏิสัมพันธ์ในรูปแบบการประเมินผลการทำงานร่วมกันเป็นกำลังสอง / ผลการกลั่นกรอง (เช่นรวมถึง (1) ผลกระทบหลัก (2) การมีปฏิสัมพันธ์ระหว่างผลกระทบหลักเหล่านั้นและ (3) ระยะกำลังสอง สำหรับหนึ่งในเอฟเฟกต์หลักและเอฟเฟกต์ curvilinear (การกลั่นกรอง))

— Bento

11

คุณแน่ใจหรือว่าตัวแปรได้รับการแสดงออกอย่างเหมาะสม? พิจารณาสองตัวแปรอิสระและ 2คำแถลงปัญหาอ้างว่าคุณได้รับแบบที่ดีในแบบฟอร์ม $X_1$ $X_2$

Y = β_{0} + β_{12} X_{1} X_{2} + ϵ

$Y = \beta_0 + \beta_{12} X_1 X_2 + \epsilon$

หากมีหลักฐานบางอย่างว่าความแปรปรวนของค่าตกค้างเพิ่มขึ้นด้วยรูปแบบที่ดีกว่านี้จะใช้ข้อผิดพลาดหลายแบบซึ่งรูปแบบหนึ่งคือ $Y$

Y = β_{0} + (β_{12} X_{1} X_{2}) δ

$Y = \beta_0 + \left( \beta_{12} X_1 X_2 \right) \delta$

สามารถเขียนใหม่ได้

\log (Y - β_{0}) = \log (β_{12}) + \log (X_{1}) + \log (X_{2}) + \log (δ);

$\log(Y - \beta_0) = \log(\beta_{12}) + \log(X_1) + \log(X_2) + \log(\delta);$

นั่นคือถ้าคุณแสดงตัวแปรของคุณอีกครั้งในแบบฟอร์ม

\begin{aligned} η = & \log (Y - β_{0}) \\ ξ_{1} = & \log (X_{1}) \\ ξ_{2} = & \log (X_{2}) \\ ζ = & \log (δ) \sim N (0, σ^{2}) \end{aligned}

$\eqalign{ \eta =& \log(Y - \beta_0) \cr \xi_1 =& \log(X_1)\cr \xi_2 =& \log(X_2)\cr \zeta =& \log(\delta) \sim N(0, \sigma^2) }$

จากนั้นแบบจำลองจะเป็นแบบเชิงเส้นและมีแนวโน้มที่จะมีสารตกค้างแบบ homoscedastic:

η = γ_{0} + γ_{1} ξ_{1} + γ_{2} ξ_{2} + ζ,

$\eta = \gamma_0 + \gamma_1 \xi_1 + \gamma_2 \xi_2 + \zeta,$

$\gamma_1$ $\gamma_2$

$\beta_0$ $Y$

$\beta_0$ $\sqrt{\beta_0}$

Y = (θ_{1} + X_{1}) (θ_{2} + X_{2}) + ϵ

$Y = (\theta_1 + X_1) (\theta_2 + X_2) + \epsilon$

$\theta_1 \theta_2 = \beta_0$ $\theta_1$ $\theta_2$ $\theta_1 X_2$ $\theta_2 X_1$ $\epsilon$

การวิเคราะห์นี้แสดงให้เห็นว่าเป็นไปได้อย่างไร - อาจเป็นไปได้ว่าในบางแอพพลิเคชั่น - จะมีรูปแบบที่เอฟเฟกต์ที่ดูเหมือนจะเป็นการโต้ตอบ สิ่งนี้เกิดขึ้นเมื่อมีการนำเสนอตัวแปร (อิสระขึ้นอยู่กับหรือทั้งสองอย่าง) ให้คุณในรูปแบบที่ไม่เหมาะสมและลอการิทึมของพวกเขาเป็นเป้าหมายที่มีประสิทธิภาพมากขึ้นสำหรับการสร้างแบบจำลอง การแจกแจงของตัวแปรและค่าเริ่มต้นให้เบาะแสที่จำเป็นในการตรวจสอบว่านี่อาจเป็นกรณี: การแจกแจงแบบเบ้ของตัวแปรและความแตกต่างแบบเฮเทอโรเซดีซิสติตี้ของส่วนที่เหลือ (โดยเฉพาะ

— whuber
แหล่งที่มา

อืมม ทั้งหมดนี้ดูเหมือนจะเป็นไปได้ แต่ซับซ้อนกว่าโซลูชันของฉัน (ความคิดเห็นเกี่ยวกับคำถามเดิมแนะนำว่าตัวทำนายมีทั้งหมวดหมู่) แต่ตามปกติคำตอบคือ "ดูข้อมูล" (หรือส่วนที่เหลือ)

— Ben Bolker

1

@Ben ฉันเห็นด้วย แต่ฉันไม่เข้าใจว่าการรับรู้ของ "ความซับซ้อนมากขึ้น" นั้นมาจากไหนเพราะการวิเคราะห์การแจกแจงที่ไม่แปรเปลี่ยนและการวิเคราะห์เศษเหลือทิ้งนั้นมีความสำคัญในแบบฝึกหัดการถดถอย งานพิเศษที่จำเป็นเท่านั้นที่นี่คือการคิดเกี่ยวกับความหมายของการวิเคราะห์เหล่านี้

— whuber

1

บางทีโดย "ซับซ้อนมากขึ้น" ฉันแค่หมายถึง "ในประสบการณ์ของฉันฉันได้เห็นปัญหาที่ฉันอ้างถึงในคำตอบของฉัน (การเข้ารหัสตรงกันข้าม) เกิดขึ้นบ่อยกว่าที่คุณอ้างถึง (ไม่เพิ่ม -) แต่นี่เป็น แถลงการณ์เกี่ยวกับประเภทของข้อมูล / คนที่ฉันทำงานด้วยไม่ใช่เกี่ยวกับโลกใบนี้

— Ben Bolker

5

$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 (X_1 \cdot X_2) = (b_0 + b_2 X_2) + (b_1 + b_3 X_2) X_1$

สิ่งนี้มักจะแนะนำความหลากสีสูงเนื่องจากผลิตภัณฑ์จะมีความสัมพันธ์อย่างมากกับตัวแปรดั้งเดิมทั้งสอง ด้วยความสัมพันธ์หลายทางการประมาณพารามิเตอร์แต่ละรายการขึ้นอยู่กับตัวแปรอื่น ๆ ที่พิจารณาเช่นในกรณีของคุณ ในฐานะที่เป็นเคาน์เตอร์ - มาตรการศูนย์มักจะลดความหลากหลายของความสัมพันธ์เมื่อพิจารณาร่วมกันเป็นตัวแปร

ฉันไม่แน่ใจว่าสิ่งนี้จะนำไปใช้กับกรณีของคุณโดยตรงเนื่องจากคุณดูเหมือนจะมีตัวทำนายหมวดหมู่ แต่ใช้คำว่า "การถดถอย" แทนที่จะเป็น "ANOVA" แน่นอนว่ากรณีหลังเป็นแบบเดียวกัน แต่หลังจากเลือกรูปแบบการเข้ารหัสความคมชัดตามที่เบ็นอธิบาย

— Caracal
แหล่งที่มา

5

นี่อาจเป็นปัญหาของการตีความความเข้าใจผิดในสิ่งที่เรียกว่าสัมประสิทธิ์ "ผลกระทบโดยตรง" ที่แท้จริงคืออะไร

ในแบบจำลองการถดถอยที่มีตัวแปรทำนายอย่างต่อเนื่องและไม่มีเงื่อนไขการโต้ตอบนั่นคือไม่มีเงื่อนไขที่สร้างขึ้นเป็นผลคูณของเงื่อนไขอื่น ๆ - สัมประสิทธิ์ของตัวแปรแต่ละตัวคือความชันของพื้นผิวการถดถอยในทิศทางของตัวแปรนั้น มันคงที่โดยไม่คำนึงถึงค่าของตัวแปรและเห็นได้ชัดว่าเป็นการวัดผลกระทบของตัวแปรนั้น

ในโมเดลที่มีการโต้ตอบนั่นคือด้วยคำที่สร้างขึ้นเป็นผลิตภัณฑ์ของคำศัพท์อื่น - การตีความนั้นสามารถทำได้โดยไม่ต้องมีการรับรองเพิ่มเติมสำหรับตัวแปรที่ไม่เกี่ยวข้องกับการโต้ตอบใด ๆ ค่าสัมประสิทธิ์ของตัวแปรที่จะมีส่วนร่วมในการโต้ตอบเป็นความลาดเอียงของพื้นผิวการถดถอยในทิศทางของตัวแปรนั้นเมื่อค่าของตัวแปรทั้งหมดที่ติดต่อกับตัวแปรในคำถามเป็นศูนย์และการทดสอบความสำคัญของค่าสัมประสิทธิ์หมายถึง ความชันของพื้นผิวการถดถอยเฉพาะในพื้นที่ของพื้นที่ตัวทำนายนั้น. เนื่องจากไม่มีข้อกำหนดว่าจะมีข้อมูลในพื้นที่ของพื้นที่นั้นค่าสัมประสิทธิ์ผลกระทบที่เห็นได้ชัดอาจมีความคล้ายคลึงกับความลาดชันของพื้นผิวการถดถอยในพื้นที่ของพื้นที่ทำนายซึ่งสังเกตข้อมูลได้จริง ในกรณีเช่นนี้จะไม่มี "ผลกระทบโดยตรง" สิ่งทดแทนที่ดีที่สุดน่าจะเป็น "เอฟเฟ็กต์เฉลี่ย": ความชันของพื้นผิวการถดถอยในทิศทางของตัวแปรที่เป็นปัญหาซึ่งถูกถ่ายในแต่ละจุดข้อมูลและเฉลี่ยทั่วทุกจุดข้อมูล สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ให้ดูที่เหตุใดการกำหนดตัวแปรอิสระให้อยู่ตรงกลางสามารถเปลี่ยนเอฟเฟกต์หลักด้วยการควบคุมได้

— Ray Koopman
แหล่งที่มา