การตีความค่าสัมประสิทธิ์ของการโต้ตอบระหว่างตัวแปรเด็ดขาดและตัวแปรต่อเนื่อง


10

ฉันมีคำถามเกี่ยวกับการตีความค่าสัมประสิทธิ์ของการโต้ตอบระหว่างตัวแปรแบบต่อเนื่องและหมวดหมู่ นี่คือแบบจำลองของฉัน:

model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), 
               data=base_708)

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               21.4836     2.0698  10.380  < 2e-16 ***
lg_hag                     8.5691     3.7688   2.274  0.02334 *  
raceblack                 -8.4715     1.7482  -4.846 1.61e-06 ***
racemexican               -3.0483     1.7073  -1.785  0.07469 .  
racemulti/other           -4.6002     2.3098  -1.992  0.04687 *  
pdg                        2.8038     0.4268   6.570 1.10e-10 ***
sexfemale                  4.5691     1.1203   4.078 5.15e-05 ***
as.factor(educa)2         13.8266     2.6362   5.245 2.17e-07 ***
as.factor(educa)3         21.7913     2.4424   8.922  < 2e-16 ***
as.factor(educa)4         19.0179     2.5219   7.541 1.74e-13 ***
as.factor(educa)5         23.7470     2.7406   8.665  < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224     6.5904  -3.220  0.00135 ** 
lg_hag:as.factor(educa)3 -19.8083     6.1255  -3.234  0.00129 ** 
lg_hag:as.factor(educa)4  -8.5502     6.6018  -1.295  0.19577    
lg_hag:as.factor(educa)5 -17.2230     6.3711  -2.703  0.00706 ***

สมมติว่าสมการของโมเดลคือ:

E [cog] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, กึ่งกลาง) + covars อื่น ๆ โดยที่

b1 = difference in cog  with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg

คำถามของฉันคือ: หากการตีความของฉันถูกต้องวิธีสร้างช่วงความมั่นใจสำหรับการประเมินผลการโต้ตอบแต่ละครั้ง (เช่น: b1 + b2) จากช่วงความมั่นใจของ b1 และ b2


ไม่คุ้นเคยกับวิธีการทำเช่นนั้นในอาร์สมมติว่าคุณสามารถได้ผลลัพธ์ตามคำสั่ง "การประเมิน" โปรดดูที่support.sas.com/documentation/cdl/th/statug/63033/HTML/default/ …
boomean

คำตอบ:


8

การตีความค่าสัมประสิทธิ์ของแบบจำลองนั้นไม่แม่นยำอย่างสมบูรณ์ ก่อนอื่นผมขอสรุปเงื่อนไขของแบบจำลอง

ตัวแปร Categorial (ปัจจัย): ,และracesexeduca

ปัจจัยที่raceมีสี่ระดับ:\}race={white,black,mexican,multi/other}

ปัจจัยที่sexมีสองระดับ:\}sex={male,female}

ปัจจัยที่educaมีห้าระดับ:\}educa={1,2,3,4,5}

โดยค่าเริ่มต้น R ใช้ความแตกต่างของการรักษาสำหรับตัวแปรเด็ดขาด ในความแตกต่างเหล่านี้ค่าแรกของปัจจัยจะใช้ระดับการอ้างอิงและค่าที่เหลือจะทดสอบกับการอ้างอิง จำนวนความแตกต่างสูงสุดสำหรับตัวแปรเด็ดขาดเท่ากับจำนวนระดับลบด้วยหนึ่ง

ขัดแย้งสำหรับraceช่วยให้การทดสอบความแตกต่างต่อไปนี้: ,และสีขาวrace=black vs.race=whiterace=mexican vs.race=whiterace=multi/other vs.race=white

สำหรับปัจจัยระดับอ้างอิงรูปแบบของความแตกต่างคือความคล้ายคลึง ผลกระทบเหล่านี้สามารถตีความได้ว่าเป็นความแตกต่างในตัวแปรตาม ในตัวอย่างของคุณค่าเฉลี่ยของคือหน่วยที่สูงขึ้นสำหรับเมื่อเทียบกับ ( )educa1cog13.8266educa=2educa=1as.factor(educa)2

สิ่งสำคัญที่ควรทราบ: หากมีความแตกต่างของการรักษาสำหรับตัวแปรเด็ดขาดในโมเดลการประมาณค่าของผลกระทบเพิ่มเติมจะขึ้นอยู่กับระดับการอ้างอิงของตัวแปรเด็ดขาดหากมีการโต้ตอบระหว่างผลกระทบเพิ่มเติมและตัวแปรเด็ดขาดด้วย หากตัวแปรไม่ได้เป็นส่วนหนึ่งของการโต้ตอบสัมประสิทธิ์ของมันจะสอดคล้องกับค่าเฉลี่ยของความลาดชันของแต่ละเซตย่อยของตัวแปรนี้ตามตัวแปรหมวดหมู่ที่เหลือทั้งหมด ผลกระทบของและสอดคล้องกับผลกระทบเฉลี่ยเกี่ยวกับระดับของตัวแปรปัจจัยอื่น ๆ ในการทดสอบผลกระทบโดยรวมของคุณจะต้องออกจากและออกจากรูปแบบraceeducaraceeducasex

ตัวแปรที่เป็นตัวเลข: และlg_hagpdg

ทั้งlg_hagและpdgเป็นตัวแปรตัวเลขดังนั้นค่าสัมประสิทธิ์แสดงถึงการเปลี่ยนแปลงในตัวแปรตามที่เกี่ยวข้องกับการเพิ่มขึ้นในการทำนาย1

โดยหลักการแล้วการตีความผลกระทบเหล่านี้เป็นสิ่งที่ตรงไปตรงมา แต่โปรดทราบว่าหากมีการแทรกซึมการประมาณค่าสัมประสิทธิ์จะขึ้นอยู่กับหมวดหมู่อ้างอิงของปัจจัย (หากใช้การเปรียบเทียบการรักษา) เนื่องจากไม่ได้เป็นส่วนหนึ่งของการโต้ตอบสัมประสิทธิ์ของมันจะสัมพันธ์กับความลาดชันเฉลี่ยของตัวแปรด้วยความเคารพ ตัวแปรยังเป็นส่วนหนึ่งของการมีปฏิสัมพันธ์กับEducaดังนั้นผลกระทบของมันจึงมีต่อซึ่งเป็นระดับฐาน; มันไม่ใช่การทดสอบอิทธิพลโดยรวมของตัวแปรตัวเลขโดยไม่คำนึงถึงระดับของปัจจัยpdglg_hageducaeduca=1lg_hag

ระหว่างตัวแปรเด็ดขาดและตัวเลข: lg_hag×educa

รูปแบบที่ไม่เพียง แต่รวมถึงผลกระทบหลัก แต่ยังมีปฏิสัมพันธ์ระหว่างตัวแปรที่เป็นตัวเลขและสี่ความแตกต่างที่เกี่ยวข้องกับEducaผลกระทบเหล่านี้สามารถตีความได้ว่าแตกต่างในการลาดของระหว่างระดับหนึ่งของและระดับอ้างอิง ( )lg_hageducalg_hageducaeduca=1

ยกตัวอย่างเช่นค่าสัมประสิทธิ์ของlg_hag:as.factor(educa)2( -21.2224) หมายถึงความลาดเอียงของที่เป็นหน่วยที่ต่ำกว่าสำหรับเมื่อเทียบกับ1lg_hag21.2224educa=2educa=1


"เหล่านี้มีค่าสัมประสิทธิ์การปฏิสัมพันธ์ยังค้างไว้race=whiteและsex=maleเพียง." คุณแน่ใจเรื่องนี้ไหม ผมถามเพราะค่าraceมิได้sexอยู่ในปฏิสัมพันธ์กับlg_hag×educaระยะ ... ฉันกำลังมองหาที่หลายตำราฉันไม่เห็นนี้แสดงให้เห็นอย่างชัดเจน
landroni

2
@landroni มีการคาดคะเนความลาดชันสำหรับจุดที่ผู้ทำนายที่เหลือทั้งหมดมีค่าเท่ากับ 0
Sven Hohenstein

ใช่นั่นเป็นความเข้าใจของฉันเช่นกัน ตัวทำนายอื่น ๆ ทั้งหมดจะมีค่าคงที่ซึ่งหมายความว่าปัจจัยจะถูกกำหนดให้อยู่ในระดับพื้นฐาน แต่ที่นั่นเป็นปริศนาของฉัน: ฉันได้ดูหนังสือหลายเล่มที่ดูเหมือนจะเป็นเงาสะท้อนความแตกต่างเล็กน้อย ยิ่งกว่านั้นกระดาษมักจะ "ควบคุมโดยอุตสาหกรรม" แต่ยังสรุปได้ว่าค่าสัมประสิทธิ์ไม่มีเงื่อนไขในตัวอย่างเต็มรูปแบบแทนที่จะแยกแยะว่านี่เป็นเพียงระดับพื้นฐาน .. ดูเพิ่มเติมที่: stats.stackexchange.com/questions/146665/ …
landroni

1
"ถ้าความแตกต่างของการรักษาสำหรับตัวแปรเด็ดขาดมีอยู่ในแบบจำลองการประเมินผลกระทบเพิ่มเติมจะขึ้นอยู่กับระดับการอ้างอิงของตัวแปรเด็ดขาด" หลังจากพิจารณาเพิ่มเติมแล้วฉันไม่มั่นใจ (หรือฉันไม่ทำตามการโต้แย้งของคุณทั้งหมด) คุณดูเหมือนจะบอกเป็นนัย ๆ ว่าการประมาณค่าเบต้าสำหรับเช่นนั้นpdgขึ้นอยู่กับระดับการอ้างอิงซึ่งไม่ชัดเจนในกรณีนี้ หากฉันเปลี่ยนระดับการอ้างอิงของปัจจัยใด ๆ (เช่นsex) การประมาณการสำหรับpdgจะไม่เปลี่ยนแปลง ...
landroni

1
@landroni ขอบคุณสำหรับการชี้ให้เห็น คุณถูกต้องข้อความนี้ทำให้เข้าใจผิด ที่จริงแล้วมีไว้สำหรับผู้ทำนายที่เป็นส่วนหนึ่งของเงื่อนไขการโต้ตอบกับตัวแปรเด็ดขาด ดังนั้นประมาณการของpdgไม่แน่นอนไม่ได้ขึ้นอยู่กับคุณสมบัติของความแตกต่างที่ ฉันจะแก้ไขคำตอบตามนั้น
Sven Hohenstein
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.