คำว่ากำลังสองหรือการปฏิสัมพันธ์มีนัยสำคัญในการแยก แต่ไม่ได้อยู่ด้วยกัน


15

ในฐานะที่เป็นส่วนหนึ่งของการมอบหมายฉันต้องทำแบบจำลองให้พอดีกับตัวแปรทำนายสองตัว จากนั้นฉันต้องวาดพล็อตของแบบจำลองที่เหลือต่อหนึ่งในตัวทำนายที่รวมไว้และทำการเปลี่ยนแปลงตามนั้น พล็อตแสดงแนวโน้มของเส้นโค้งดังนั้นฉันจึงรวมคำกำลังสองสำหรับตัวทำนายนั้น โมเดลใหม่แสดงคำว่ากำลังสองให้มีนัยสำคัญ ดีมากจนถึงตอนนี้

อย่างไรก็ตามข้อมูลชี้ให้เห็นว่าการโต้ตอบนั้นสมเหตุสมผลเช่นกัน การเพิ่มคำที่ใช้ในการโต้ตอบกับโมเดลดั้งเดิมนั้นยังคงแนวโน้มของ curvilinear และก็มีความสำคัญเช่นกันเมื่อเพิ่มเข้ากับโมเดล ปัญหาคือเมื่อเพิ่มทั้งสองกำลังสองและคำการโต้ตอบในรูปแบบหนึ่งในนั้นไม่สำคัญ

ฉันควรรวมคำใด (กำลังสองหรือการโต้ตอบ) ไว้ในโมเดลและทำไม

คำตอบ:


21

สรุป

เมื่อตัวทำนายมีความสัมพันธ์กันคำที่เป็นกำลังสองและคำที่มีปฏิสัมพันธ์จะมีข้อมูลที่คล้ายกัน สิ่งนี้สามารถทำให้ทั้งโมเดลกำลังสองหรือโมเดลการโต้ตอบมีความสำคัญ แต่เมื่อรวมคำทั้งสองไว้ด้วยเพราะคำเหล่านั้นคล้ายกันดังนั้นอาจไม่มีนัยสำคัญ การวินิจฉัยแบบมาตรฐานสำหรับ multicollinearity เช่น VIF อาจล้มเหลวในการตรวจสอบสิ่งนี้ แม้แต่พล็อตการวินิจฉัยที่ออกแบบมาโดยเฉพาะเพื่อตรวจจับผลกระทบของการใช้แบบจำลองกำลังสองแทนที่การโต้ตอบอาจล้มเหลวในการพิจารณาว่าตัวแบบใดดีที่สุด


การวิเคราะห์

แรงผลักดันของการวิเคราะห์นี้และจุดแข็งหลักของมันคือการอธิบายลักษณะของสถานการณ์อย่างที่อธิบายไว้ในคำถาม ด้วยลักษณะที่มีอยู่จึงเป็นเรื่องง่ายที่จะจำลองข้อมูลที่ทำงานตามนั้น

พิจารณาตัวทำนายสองตัว และ X 2 (ซึ่งเราจะสร้างมาตรฐานให้โดยอัตโนมัติเพื่อให้แต่ละคนมีความแปรปรวนของหน่วยในชุดข้อมูล) และสมมติว่าการตอบสนองแบบสุ่ม Yถูกกำหนดโดยตัวทำนายเหล่านี้และปฏิสัมพันธ์ของพวกเขาX1X2Y

Y=β1X1+β2X2+β1,2X1X2+ε.

ในหลายกรณีผู้ทำนายมีความสัมพันธ์กัน ชุดข้อมูลอาจมีลักษณะเช่นนี้:

เมทริกซ์ Scatterplot

ข้อมูลตัวอย่างเหล่านี้ถูกสร้างขึ้นด้วยและβ 1 , 2 = 0.1 ความสัมพันธ์ระหว่างXβ1=β2=1β1,2=0.1และ X 2คือ0.85X1X20.85

นี่ไม่ได้แปลว่าเรากำลังคิดถึงและX 2X1X2เป็นการตระหนักถึงตัวแปรสุ่ม: มันสามารถรวมสถานการณ์ที่ทั้งและX 2เป็นการตั้งค่าในการทดสอบที่ออกแบบมา แต่ด้วยเหตุผลบางอย่างการตั้งค่าเหล่านี้ไม่ใช่ orthogonalX1X2

โดยไม่คำนึงถึงวิธีการที่มีความสัมพันธ์ที่เกิดขึ้นซึ่งเป็นหนึ่งในวิธีที่ดีที่จะอธิบายมันเป็นในแง่ของวิธีการมากทำนายแตกต่างจากค่าเฉลี่ยของพวกเขา 2 ความแตกต่างเหล่านี้จะมีขนาดค่อนข้างเล็ก (ในแง่ที่ว่าความแตกต่างของพวกเขาน้อยกว่า1 ); ยิ่งสหสัมพันธ์ระหว่างX 1และX 2มากเท่าไหร่ความแตกต่างเหล่านี้ก็ยิ่งน้อยลงเท่านั้น การเขียนดังนั้นX 1 = X 0 + δ 1และX 2 = X 0 + δX0=(X1+X2)/21X1X2X1=X0+δ1เราสามารถ re-Express (พูด) X 2ในแง่ของ - δ 1 ) การเสียบสิ่งนี้เข้ากับเทอมการโต้ตอบเท่านั้นโมเดลคือX2=X0+δ2X2เป็น X 2 = X 1 + ( δ 2X1X2=X1+(δ2-δ1)

Y=β1X1+β2X2+β1,2X1(X1+[δ2-δ1])+ε=(β1+β1,2[δ2-δ1])X1+β2X2+β1,2X12+ε

ระบุค่าของแตกต่างกันเล็กน้อยเมื่อเทียบกับ β 1เราสามารถรวบรวมรูปแบบนี้กับคำที่สุ่มจริงการเขียนβ1,2[δ2-δ1]β1

Y=β1X1+β2X2+β1,2X12+(ε+β1,2[δ2-δ1]X1)

ดังนั้นถ้าเราถอยหลังเทียบกับX 1 , X 2และX 2 1YX1,X2X12เราจะทำการผิดพลาด: การเปลี่ยนแปลงในส่วนที่เหลือจะขึ้นอยู่กับ (นั่นคือมันจะเป็นแบบheteroscedastic ) สิ่งนี้สามารถเห็นได้ด้วยการคำนวณผลต่างง่าย ๆ :X1

var(ε+β1,2[δ2δ1]X1)=var(ε)+[β1,22var(δ2δ1)]X12.

อย่างไรก็ตามหากการเปลี่ยนแปลงทั่วไปในมีนัยสำคัญเกินกว่าการเปลี่ยนแปลงทั่วไปในβ 1 , 2 [ δ 2 - δ 1 ] X 1 , heteroscedasticity นั้นจะต่ำมากจนไม่สามารถตรวจจับได้ (และควรให้แบบจำลองที่ดี) (ดังที่แสดงด้านล่างวิธีหนึ่งในการค้นหาการละเมิดสมมติฐานการถดถอยนี้คือการพล็อตค่าสัมบูรณ์ของส่วนที่เหลือเทียบกับค่าสัมบูรณ์ของXεβ1,2[δ2δ1]X1ทะเบียนก่อนเพื่อสร้างมาตรฐาน X 1หากจำเป็น) นี่คือลักษณะที่เราต้องการ .X1X1

จำได้ว่าและX 2ถูกสันนิษฐานว่าเป็นมาตรฐานของความแปรปรวนของหน่วยนี่หมายถึงความแปรปรวนของδ 2 - δ 1X1X2δ2δ1β1,2

ในระยะสั้นเมื่อตัวทำนายมีความสัมพันธ์กันและการโต้ตอบมีขนาดเล็ก แต่ไม่เล็กเกินไปคำที่เป็นกำลังสอง (ในตัวทำนายอย่างเดียว) และคำที่ใช้ในการโต้ตอบจะมีความหมายแยกกัน แต่จะสับสนกัน วิธีการทางสถิติเพียงอย่างเดียวไม่น่าจะช่วยให้เราตัดสินใจได้ว่าวิธีไหนดีกว่าที่จะใช้


ตัวอย่าง

β1,20.1150

ครั้งแรกรูปแบบสมการกำลังสอง :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03363    0.03046   1.104  0.27130    
x1           0.92188    0.04081  22.592  < 2e-16 ***
x2           1.05208    0.04085  25.756  < 2e-16 ***
I(x1^2)      0.06776    0.02157   3.141  0.00204 ** 

Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808 

0.068β1,2=0.1

      x1       x2  I(x1^2) 
3.531167 3.538512 1.009199 

5

ถัดไปโมเดลที่มีการโต้ตอบแต่ไม่มีคำกำลังสอง:

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02887    0.02975    0.97 0.333420    
x1           0.93157    0.04036   23.08  < 2e-16 ***
x2           1.04580    0.04039   25.89  < 2e-16 ***
x1:x2        0.08581    0.02451    3.50 0.000617 ***

Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811

      x1       x2    x1:x2 
3.506569 3.512599 1.004566 

ผลลัพธ์ทั้งหมดคล้ายกับผลลัพธ์ก่อนหน้า ทั้งคู่มีความดีพอ ๆ กัน (โดยมีข้อได้เปรียบเพียงเล็กน้อยต่อโมเดลการโต้ตอบ)

ท้ายที่สุดเราขอรวมทั้งการโต้ตอบและเงื่อนไขกำลังสอง :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02572    0.03074   0.837    0.404    
x1           0.92911    0.04088  22.729   <2e-16 ***
x2           1.04771    0.04075  25.710   <2e-16 ***
I(x1^2)      0.01677    0.03926   0.427    0.670    
x1:x2        0.06973    0.04495   1.551    0.123    

Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981 

      x1       x2  I(x1^2)    x1:x2 
3.577700 3.555465 3.374533 3.359040

X1X2X12X1X2

หากเราพยายามตรวจจับความแตกต่างของความแข็งแรงในโมเดลกำลังสอง (อันแรก) เราจะต้องผิดหวัง:

พล็อตการวินิจฉัย

|X1|


9

อะไรที่สมเหตุสมผลที่สุดโดยอ้างอิงจากแหล่งข้อมูล?

เราไม่สามารถตอบคำถามนี้ให้คุณได้คอมพิวเตอร์ไม่สามารถตอบคำถามนี้ให้คุณได้ เหตุผลที่เรายังต้องการนักสถิติแทนที่จะเป็นโปรแกรมเชิงสถิติก็เพราะคำถามเช่นนี้ สถิติเป็นมากกว่าการบดขยี้ตัวเลขมันเป็นเรื่องเกี่ยวกับการทำความเข้าใจคำถามและที่มาของข้อมูลและความสามารถในการตัดสินใจบนพื้นฐานของวิทยาศาสตร์และภูมิหลังและข้อมูลอื่น ๆ นอกเหนือจากข้อมูลที่คอมพิวเตอร์ดู ครูของคุณอาจหวังว่าคุณจะพิจารณาสิ่งนี้เป็นส่วนหนึ่งของงานที่มอบหมาย หากฉันได้มอบหมายปัญหาแบบนี้ (และฉันมีมาก่อน) ฉันจะสนใจคำตอบของคุณมากกว่าที่คุณเลือก

มันอาจจะเกินคลาสปัจจุบันของคุณ แต่วิธีหนึ่งถ้าไม่มีเหตุผลทางวิทยาศาสตร์ที่ชัดเจนสำหรับการเลือกแบบหนึ่งมากกว่าอีกแบบคือแบบเฉลี่ยคุณพอดีทั้งสองแบบ (และอาจเป็นแบบจำลองอื่น ๆ ด้วย) คุณเฉลี่ยการทำนาย (มักถ่วงน้ำหนักด้วยความดีของแบบที่แตกต่างกัน)

อีกทางเลือกหนึ่งที่เป็นไปได้คือการรวบรวมข้อมูลมากขึ้นและหากเป็นไปได้ให้เลือกค่า x เพื่อให้ชัดเจนยิ่งขึ้นว่าเอฟเฟกต์แบบไม่เป็นเชิงเส้นและปฏิสัมพันธ์

มีเครื่องมือบางอย่างสำหรับการเปรียบเทียบความพอดีของโมเดลที่ไม่ซ้อนกัน (AIC, BIC, ฯลฯ ) แต่สำหรับกรณีนี้พวกเขาอาจจะไม่แสดงความแตกต่างมากพอที่จะเข้าใจความผิดของข้อมูลที่มาจากไหนและเหมาะสมที่สุด


1

ความเป็นไปได้อีกประการหนึ่งนอกเหนือจาก @ Greg's คือการรวมคำทั้งสองไว้แม้ว่าจะไม่มีความหมายก็ตาม การรวมศัพท์เฉพาะที่มีนัยสำคัญทางสถิติเท่านั้นไม่ใช่กฎของจักรวาล


ขอบคุณ Peter & @Greg ฉันเดาว่าในขั้นตอนการศึกษาของฉันฉันกำลังมองหาคำตอบสำหรับคำถามที่ต้องการเหตุผลเชิงคุณภาพอย่างน้อยที่สุด เนื่องจากการเพิ่มของคำศัพท์กำลังสองหรือคำการโต้ตอบ 'แก้ไข' ส่วนที่เหลือเทียบกับพล็อตการทำนายฉันไม่แน่ใจว่าควรรวมรายการใด สิ่งที่ทำให้ฉันประหลาดใจก็คือการรวมคำที่ใช้กำลังสองแสดงคำที่ใช้ในการโต้ตอบไม่สำคัญ ฉันจะคิดว่าถ้ามีปฏิสัมพันธ์มันจะมีความสำคัญโดยไม่คำนึงว่าคำว่ากำลังสองถูกรวมหรือไม่
Tal Bashan

1
สวัสดี @TalBashan นักสถิติชื่อดัง Donald Cox เคยกล่าวไว้ว่า "ไม่มีคำถามเชิงสถิติประจำกิจวัตรเชิงสถิติที่น่าสงสัยเท่านั้น"
Peter Flom - Reinstate Monica

@PeterFlom คุณอาจหมายถึง Sir David Cox หรือ
Michael R. Chernick

อ๊ะ ใช่เดวิดไม่ใช่โดนัล ขอโทษ
Peter Flom - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.