เหตุใดการกำหนดค่าตัวแปรอิสระให้อยู่ตรงกลางสามารถเปลี่ยนเอฟเฟกต์หลักด้วยการควบคุมได้


28

ฉันมีคำถามเกี่ยวกับการถดถอยหลายครั้งและการมีปฏิสัมพันธ์ซึ่งได้รับแรงบันดาลใจจากหัวข้อ CV นี้: คำที่ใช้โต้ตอบโดยใช้ตัวแปรกึ่งกลางการวิเคราะห์การถดถอยแบบลำดับชั้น? ตัวแปรใดที่เราควรตั้งศูนย์

เมื่อตรวจสอบเอฟเฟกต์การกลั่นกรองฉันจะวางตัวแปรอิสระไว้ที่กึ่งกลางและคูณตัวแปรกึ่งกลางเพื่อคำนวณระยะการโต้ตอบของฉัน จากนั้นฉันเรียกใช้การวิเคราะห์การถดถอยและตรวจสอบผลหลักและการโต้ตอบซึ่งอาจแสดงการกลั่นกรอง

ถ้าฉันทำการวิเคราะห์ซ้ำโดยไม่อยู่ตรงกลางเห็นได้ชัดว่าสัมประสิทธิ์การตัดสินใจ ( ) ไม่เปลี่ยนแปลง แต่สัมประสิทธิ์การถดถอย ( s) ทำ ที่ดูเหมือนชัดเจนและมีเหตุผลR2β

สิ่งที่ฉันไม่เข้าใจ: ค่า p ของเอฟเฟ็กต์หลักเปลี่ยนไปอย่างมากเมื่ออยู่กึ่งกลางแม้ว่าการโต้ตอบไม่ได้ (ซึ่งถูกต้อง) ดังนั้นการตีความของฉันเกี่ยวกับเอฟเฟ็กต์หลักอาจเปลี่ยนไปอย่างมาก - เพียงแค่กำหนดโดยการอยู่กึ่งกลาง (มันยังคงเป็นข้อมูลเดียวกันในการวิเคราะห์ทั้งสอง!)

บางคนสามารถอธิบายได้หรือไม่ - เพราะนั่นหมายความว่าตัวเลือกในการกำหนดตัวแปรของฉันให้อยู่ตรงกลางและทุกคนควรทำเพื่อให้ได้ผลลัพธ์เดียวกันกับข้อมูลเดียวกัน


ขอบคุณมากสำหรับการแจกจ่ายให้กับปัญหานั้นและคำอธิบายที่ครอบคลุมของคุณ มั่นใจได้ว่าความช่วยเหลือของคุณได้รับการชื่นชมอย่างมาก!

สำหรับฉันประโยชน์ที่ใหญ่ที่สุดของการอยู่ตรงกลางคือการหลีกเลี่ยงความไม่ลงรอยกัน มันค่อนข้างสับสนที่จะสร้างกฎไม่ว่าจะอยู่กึ่งกลางหรือไม่ก็ตาม ความประทับใจของฉันคือทรัพยากรส่วนใหญ่แนะนำให้ศูนย์แม้ว่าจะมี "ความเสี่ยง" บางอย่างเมื่อทำมัน อีกครั้งฉันต้องการที่จะนำความจริงออกมาว่านักวิจัย 2 คนที่จัดการกับวัสดุและข้อมูลเดียวกันอาจสรุปผลลัพธ์ที่แตกต่างกันได้ ฉันเพิ่งอ่านบางส่วนของหนังสือโดย Bortz (เขาเป็นศาสตราจารย์และเป็นดาวสถิติในเยอรมนีและยุโรป) และเขาไม่ได้พูดถึงเทคนิคนั้น เพียงชี้ให้เห็นอย่างระมัดระวังในการตีความผลกระทบหลักของตัวแปรเมื่อพวกเขามีส่วนร่วมในการโต้ตอบ

ท้ายที่สุดเมื่อคุณทำการถดถอยด้วยหนึ่ง IV หนึ่งโมเดอเรเตอร์ (หรือ IV ที่สอง) และ DV คุณจะแนะนำให้อยู่กึ่งกลางหรือไม่?


5
ฉันแทบไม่เคยใช้การตั้งศูนย์เลยพบว่ามันไม่จำเป็นและสับสนอย่างสมบูรณ์
Frank Harrell

3
อ่านคำตอบอีกครั้งอย่างระมัดระวัง ข้อสรุปของคุณจะไม่เปลี่ยนแปลงเมื่อคุณจัดวางตัวแปรอิสระหรือใช้การแปลงเชิงเส้นใด ๆ - หากมีการวาดอย่างถูกต้อง ความหลากหลายทางเนื่องจากการไม่ได้อยู่ตรงกลางเป็นปัญหาเชิงตัวเลขอย่างสิ้นเชิง & จัดการโดยอัตโนมัติโดยซอฟต์แวร์ที่ดี
Scortchi - Reinstate Monica

1
ปรากฏการณ์ (จาก P-เปลี่ยนแปลงค่า) นี้สามารถเข้าใจได้เป็นผลมาจากธรรมชาติกำลังสองของการสื่อสารเช่นการอธิบายที่stats.stackexchange.com/questions/28730/...
whuber

คำตอบ:


23

ในโมเดลที่ไม่มีเงื่อนไขการโต้ตอบ (นั่นคือโดยไม่มีเงื่อนไขที่สร้างขึ้นเป็นผลคูณของเงื่อนไขอื่น ๆ ) สัมประสิทธิ์การถดถอยของตัวแปรแต่ละตัวคือความชันของพื้นผิวการถดถอยในทิศทางของตัวแปรนั้น เป็นค่าคงที่โดยไม่คำนึงถึงค่าของตัวแปรและสามารถพูดได้เพื่อวัดผลกระทบโดยรวมของตัวแปรนั้น

ในโมเดลที่มีการโต้ตอบการตีความนี้สามารถทำได้โดยไม่ต้องมีการรับรองเพิ่มเติมสำหรับตัวแปรเหล่านั้นที่ไม่เกี่ยวข้องกับการโต้ตอบใด ๆ สำหรับตัวแปรที่เกี่ยวข้องในการโต้ตอบสัมประสิทธิ์การถดถอย "หลัก - ผลกระทบ" - นั่นคือสัมประสิทธิ์การถดถอยของตัวแปรด้วยตัวเอง - เป็นความลาดชันของพื้นผิวการถดถอยในทิศทางของตัวแปรนั้นเมื่อตัวแปรอื่น ๆ ทั้งหมดที่ โต้ตอบกับตัวแปรนั้นมีค่าเป็นศูนย์และการทดสอบความสำคัญของสัมประสิทธิ์หมายถึงความชันของพื้นผิวการถดถอยเฉพาะในพื้นที่นั้นของพื้นที่ทำนาย. เนื่องจากไม่มีข้อกำหนดว่าจะมีข้อมูลในพื้นที่ของพื้นที่นั้นค่าสัมประสิทธิ์หลักอาจมีความคล้ายคลึงกับความชันของพื้นผิวการถดถอยในพื้นที่ของพื้นที่ทำนายซึ่งมีการสังเกตข้อมูลจริงเล็กน้อย

ในแง่ของโนวาสัมประสิทธิ์ผลหลักคล้ายคลึงกับเอฟเฟกต์หลักอย่างง่ายไม่ใช่เอฟเฟกต์หลักโดยรวม ยิ่งไปกว่านั้นมันอาจหมายถึงสิ่งที่อยู่ในการออกแบบ anova จะเป็นเซลล์ว่างที่ข้อมูลถูกจัดทำขึ้นโดยการประมาณจากเซลล์ที่มีข้อมูล

สำหรับการวัดผลกระทบโดยรวมของตัวแปรที่คล้ายคลึงกับผลกระทบหลักโดยรวมใน anova และไม่คาดการณ์เกินกว่าพื้นที่ซึ่งข้อมูลถูกสังเกตเห็นเราจะต้องดูความชันเฉลี่ยของพื้นผิวการถดถอยในทิศทางของตัวแปร ซึ่งค่าเฉลี่ยอยู่เหนือผู้ป่วย N รายที่สังเกตได้จริง ความชันเฉลี่ยนี้สามารถแสดงเป็นผลรวมถ่วงน้ำหนักของสัมประสิทธิ์การถดถอยของคำศัพท์ทั้งหมดในแบบจำลองที่เกี่ยวข้องกับตัวแปรที่เป็นปัญหา

น้ำหนักนั้นอธิบายได้ยาก แต่ง่ายต่อการเข้าใจ สัมประสิทธิ์ผลหลักของตัวแปรจะมีค่าเป็น 1 เสมอสำหรับแต่ละค่าสัมประสิทธิ์ของคำที่เกี่ยวข้องกับตัวแปรนั้นน้ำหนักเป็นค่าเฉลี่ยของผลคูณของตัวแปรอื่น ๆ ในระยะนั้น ตัวอย่างเช่นหากเรามีห้าตัวแปร "ดิบ" x1, x2, x3, x4, x5รวมถึงการโต้ตอบสองทางสี่ทางและการโต้ตอบ(x1,x2), (x1,x3), (x2,x3), (x4,x5)สามทางหนึ่ง(x1,x2,x3)รูปแบบก็คือ

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

และผลกระทบหลักโดยรวมคือ

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

โดยที่ M [.] หมายถึงค่าเฉลี่ยตัวอย่างของปริมาณในวงเล็บ เงื่อนไขผลิตภัณฑ์ทั้งหมดในวงเล็บอยู่ในเงื่อนไขที่สร้างขึ้นเพื่อทำการถดถอยดังนั้นโปรแกรมการถดถอยควรทราบเกี่ยวกับพวกเขาแล้วและควรจะสามารถพิมพ์วิธีการของพวกเขาเมื่อมีการร้องขอ

ในแบบจำลองที่มีเอฟเฟกต์หลักและการโต้ตอบแบบสองทางมีวิธีที่ง่ายกว่าในการรับเอฟเฟกต์รวม: จัดกึ่งกลาง [1] ตัวแปรดิบตามค่าเฉลี่ย สิ่งนี้จะต้องทำก่อนที่จะคำนวณเงื่อนไขของผลิตภัณฑ์และไม่ควรทำกับผลิตภัณฑ์ จากนั้นนิพจน์ M [.] ทั้งหมดจะกลายเป็น 0 และสัมประสิทธิ์การถดถอยจะสามารถตีความได้ว่าเป็นผลกระทบโดยรวม ค่าของ b's จะเปลี่ยนไป ค่าของ B จะไม่ เฉพาะตัวแปรที่เกี่ยวข้องกับการโต้ตอบเท่านั้นที่จะต้องอยู่กึ่งกลาง แต่โดยทั่วไปจะไม่มีอันตรายใด ๆ ผลทั่วไปของการจัดให้ตัวแปรอยู่ตรงกลางคือนอกเหนือจากการเปลี่ยนการสกัดกั้นแล้วมันจะเปลี่ยนเฉพาะค่าสัมประสิทธิ์ของตัวแปรอื่น ๆ ที่มีปฏิสัมพันธ์กับตัวแปรกลาง โดยเฉพาะอย่างยิ่ง, มันไม่ได้เปลี่ยนค่าสัมประสิทธิ์ของเงื่อนไขใด ๆ ที่เกี่ยวข้องกับตัวแปรกึ่งกลาง ในตัวอย่างที่ให้ไว้ข้างต้นการจัดศูนย์กลาง x1 จะเปลี่ยน b0, b2, b3 และ b23

[1 - "การตั้งศูนย์" ถูกใช้โดยผู้คนต่างกันในรูปแบบที่แตกต่างกันมากพอที่จะทำให้เกิดความสับสน ตามที่ใช้ที่นี่ "การจัดวางตัวแปรที่ #" หมายถึงการลบ # จากคะแนนทั้งหมดในตัวแปรการแปลงคะแนนดั้งเดิมเป็นการเบี่ยงเบนจาก #]

ดังนั้นทำไมไม่มุ่งเน้นไปที่วิธีการเสมอ สามเหตุผล ก่อนอื่นสัมประสิทธิ์ผลหลักของตัวแปรที่ไม่ได้ใส่ตัวเองอาจเป็นที่สนใจ การจัดให้อยู่กึ่งกลางในกรณีดังกล่าวจะเป็นการต่อต้านเนื่องจากมีการเปลี่ยนแปลงค่าสัมประสิทธิ์ผลหลักของตัวแปรอื่น ๆ

ประการที่สองตรงกลางจะทำให้ทุก M [.] แสดงออก 0 และทำให้ผลกระทบที่แปลงง่ายที่จะมีผลกระทบโดยรวมเฉพาะในรุ่นที่มีไม่มีสามทางหรือการโต้ตอบที่สูงขึ้น ถ้าแบบจำลองนั้นมีการโต้ตอบเช่นนั้นการคำนวณ b -> B จะต้องดำเนินการต่อไปแม้ว่าตัวแปรทั้งหมดจะอยู่กึ่งกลางของค่าเฉลี่ย

ประการที่สามการจัดศูนย์กลางที่ค่าเช่นค่าเฉลี่ยที่กำหนดโดยการกระจายของตัวทำนายเมื่อเทียบกับการเลือกอย่างมีเหตุผลหมายความว่าสัมประสิทธิ์ทั้งหมดที่ได้รับผลกระทบจากการจัดกึ่งกลางนั้นจะเฉพาะเจาะจงกับตัวอย่างเฉพาะของคุณ หากคุณมุ่งเน้นที่ค่าเฉลี่ยแล้วมีคนพยายามทำซ้ำการศึกษาของคุณจะต้องมุ่งเน้นที่ค่าเฉลี่ยของคุณไม่ใช่ค่าเฉลี่ยของพวกเขาหากพวกเขาต้องการได้รับค่าสัมประสิทธิ์เดียวกับที่คุณได้รับ วิธีแก้ปัญหานี้คือการจัดวางตัวแปรแต่ละตัวที่ค่ากลางที่เลือกอย่างสมเหตุสมผลของตัวแปรนั้นขึ้นอยู่กับความหมายของคะแนนและไม่ขึ้นอยู่กับการกระจายของคะแนน อย่างไรก็ตามการคำนวณ b -> B ยังคงมีความจำเป็น

ความสำคัญของผลกระทบโดยรวมอาจถูกทดสอบโดยขั้นตอนปกติสำหรับการทดสอบการรวมกันเชิงเส้นของสัมประสิทธิ์การถดถอย อย่างไรก็ตามผลลัพธ์จะต้องตีความอย่างระมัดระวังเนื่องจากผลกระทบโดยรวมไม่ใช่พารามิเตอร์โครงสร้าง แต่ขึ้นอยู่กับการออกแบบ พารามิเตอร์โครงสร้าง - สัมประสิทธิ์การถดถอย (ไม่ได้ใส่คำหรือใช้ศูนย์เหตุผล) และความแปรปรวนข้อผิดพลาด - คาดว่าจะยังคงไม่เปลี่ยนแปลงภายใต้การเปลี่ยนแปลงในการกระจายตัวของตัวทำนาย แต่ผลกระทบโดยรวมจะเปลี่ยนไป ผลกระทบโดยรวมนั้นมีความเฉพาะเจาะจงกับตัวอย่างเฉพาะและไม่ควรคาดว่าจะส่งต่อไปยังตัวอย่างอื่นที่มีการแจกแจงที่แตกต่างกันในตัวทำนาย หากผลกระทบโดยรวมมีความสำคัญในการศึกษาหนึ่งและไม่ได้อยู่ในอีกการศึกษาหนึ่งอาจไม่สะท้อนความแตกต่างในการกระจายตัวทำนาย


10

β

y=β1x1+β2x2+β3x1x2+ϵβ1x1β3x1x2x1x1x2β

ββ1yx1 x2=0x1yx2β1x2

βx1yx2yx1x2


-1

ฉันคลั่งไคล้กับคำถามเดียวกัน แต่ในที่สุดฉันก็พบวิธีแก้ปัญหาสำหรับคุณและปัญหาของฉัน มันคือทั้งหมดที่เกี่ยวกับวิธีที่คุณคำนวณตัวแปรศูนย์กลางของคุณ มีสองตัวเลือก:
1. หมายถึง - ตัวแปรแต่ละตัว 2. ตัวแปรแต่ละตัว - หมายถึง
คุณอาจคำนวณตัวแปรกึ่งกลางของคุณเป็น(ตัวแปรแต่ละตัว - ค่าเฉลี่ย)ดังนั้นผู้ที่มีค่าต่ำจะได้รับคะแนนลบและผู้ที่มีค่าสูงจะได้รับค่าบวก คะแนน
ฉันจะอธิบายด้วยตัวอย่างเพื่อให้เข้าใจง่ายขึ้น ฉันต้องการดูว่าความแข็งแรงของกล้ามเนื้อมีผลต่อมวลกระดูกอย่างไรและฉันต้องการคำนึงถึงเพศเพื่อดูว่ามันมีผลกระทบต่างกันในเด็กหญิงและเด็กชายหรือไม่ แนวคิดก็คือยิ่งความแข็งแรงของกล้ามเนื้อยิ่งสูงเท่ามวลกระดูก ฉันมี:

ตัวแปรขึ้นอยู่กับ: มวลกระดูกตัวแปรอิสระ: เพศ, ความแข็งแรงของกล้ามเนื้อ, การมีปฏิสัมพันธ์_SEX_MUSCLEstrength

ในขณะที่ฉันพบความหลากหลายทางชีวภาพ (โดยปกติคุณจะทำเมื่อคุณมีคำศัพท์โต้ตอบ) ฉันก็เน้นที่ความเป็น Musclest Strength (MEAN - INDIVIDUAL VARIABLE) และสร้างคำการโต้ตอบใหม่ด้วยตัวแปรกึ่งกลางใหม่ ค่าสัมประสิทธิ์ของฉันคือ

0.902
-0.010
-0.023
0.0002

0.902-(0* * * *0.010)-(0.023* * * *ม.ยูsล.อีอีnเสื้อRอีdโวลต์aล.ยูอี)+(ผมnเสื้ออีRaเสื้อผมโอn* * * *0.0002)

เมื่อมองดูสิ่งนี้คุณอาจคิดว่ากล้ามเนื้อมีผลต่อกระดูกในเชิงลบ แต่คุณต้องคิดถึงตัวแปรที่เป็นศูนย์กลางไม่ใช่ตัวแปรดั้งเดิมของคุณ 30 KGสมมติว่าแข็งแรงของกล้ามเนื้อค่าเฉลี่ยของกลุ่มที่เป็น และคุณต้องการประเมินมวลกระดูกของเด็กผู้ชาย (อ่อนแอ) ที่แสดง20 KGและอีกคนแสดง40KG(STRONGBOY) ค่าที่เป็นศูนย์กลางของ WEAKBOY จะเป็น (หมายถึงค่ากลุ่ม - ค่าส่วนบุคคล; 30 - 20 = 10) และค่า STRONGBOY คือ -10 การใช้ค่าเหล่านี้กับสมการ:

มวลกระดูกอ่อนแอ = 0.902 - 0 - (0.023 * 10) + .... = 0.672

STRONGBOY มวลกระดูก = 0.902 - (0.023 * (- 10)) + ... = 1.132

อย่างที่คุณเห็นว่า STRONGBOY จะมีกระดูกที่แข็งแรงกว่า หากคุณอยู่ตรงกลางตัวแปรของคุณในทางกลับกัน: (INDIVIDUAL - MEAN) สัมประสิทธิ์ทั้งหมดจะเหมือนกัน แต่สัญลักษณ์จะแตกต่างกัน นี่เป็นเพราะเมื่อคุณใช้ตัวแปรที่อยู่ตรงกลาง WEAKBOY จะเป็น (-10) และ STRONGBOY จะเป็น (+10) ดังนั้นผลลัพธ์สุดท้ายจะเหมือนกันทุกประการ

ทุกอย่างสมเหตุสมผลเมื่อคุณเข้าใจ

หวังว่าตัวอย่างจะชัดเจนเพียงพอ


ความผิดพลาดนี้จะไม่อธิบายการเปลี่ยนแปลงในค่า p BTW ตัวเลือกของคุณ (1) ไม่ได้อยู่ตรงกลางเพราะมันรวมการคูณค่าด้วยค่าคงที่เช่นกัน (ค่าคงที่คือ -1)
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.