เหตุใดตัวแบบผสมแบบผสมจึงแก้ปัญหาการพึ่งพาได้?


14

สมมติว่าเราสนใจว่าคะแนนสอบของนักเรียนจะได้รับผลกระทบจากจำนวนชั่วโมงที่นักเรียนเหล่านั้นเรียนอย่างไร เพื่อสำรวจความสัมพันธ์นี้เราสามารถเรียกใช้การถดถอยเชิงเส้นต่อไปนี้:

exam.gradesi=a+β1×hours.studiedi+ei

แต่ถ้าเราสุ่มตัวอย่างนักเรียนจากโรงเรียนต่าง ๆ เราอาจคาดหวังว่านักเรียนในโรงเรียนเดียวกันจะคล้ายกันมากกว่านักเรียนจากโรงเรียนต่าง ๆ เพื่อจัดการกับปัญหาการพึ่งพานี้คำแนะนำในหนังสือเรียน / บนเว็บไซต์จำนวนมากคือการใช้เอฟเฟกต์แบบผสมและเข้าโรงเรียนเป็นเอฟเฟกต์แบบสุ่ม ดังนั้นโมเดลจะกลายเป็น: แต่ทำไมมันถึงแก้ปัญหาการพึ่งพาที่มีอยู่ในการถดถอยเชิงเส้น?

exam.gradesi=a+β1×hours.studiedi+schoolj+ei

โปรดตอบกลับราวกับว่าคุณกำลังคุยกับเด็กอายุ 12 ปี


ไม่ว่าจะเป็น "แก้ปัญหา" ปัญหาการพึ่งพาเป็นบริบทเฉพาะ แต่คุณอาจเห็นได้ว่าขณะนี้แบบจำลองเพิ่มเติมมีคำที่อย่างน้อยก็บางส่วนสามารถอธิบายถึงผลกระทบที่เกี่ยวข้องกับโรงเรียนใดโรงเรียนหนึ่งได้
image_doctor

คำตอบ:


23

การรวมคำที่สุ่มในแบบจำลองเป็นวิธีที่จะชักนำให้เกิดโครงสร้างความแปรปรวนร่วมบางอย่างระหว่างเกรด ปัจจัยสุ่มสำหรับโรงเรียนทำให้เกิดความแปรปรวนร่วมที่ไม่เป็นศูนย์ระหว่างนักเรียนที่แตกต่างจากโรงเรียนเดียวกันในขณะที่เป็นเมื่อโรงเรียนแตกต่างกัน0

ลองเขียนโมเดลของคุณเป็น โดยที่sทำดัชนีโรงเรียนและiทำดัชนีนักเรียน (ในแต่ละโรงเรียน) เงื่อนไขการโรงเรียนsเป็นตัวแปรอิสระสุ่มวาดในN ( 0 , τ ) อีs , ฉันเป็นตัวแปรสุ่มอิสระวาดในN ( 0 , 2

Ys,i=α+hourss,iβ+schools+es,i
sischoolsN(0,τ)es,iN(0,σ2) )

เวกเตอร์นี้คาดว่าจะมีค่า

[α+hourss,iβ]s,i
ซึ่งจะถูกกำหนดโดยจำนวนชั่วโมงการทำงาน

ความแปรปรวนร่วมระหว่างและY s , i คือ0เมื่อs s Ys,iYs,i0ssซึ่งหมายความว่าการออกจากเกรดจากค่าที่คาดหวังนั้นเป็นอิสระเมื่อนักเรียนไม่ได้อยู่ในโรงเรียนเดียวกัน

ความแปรปรวนระหว่างและY s , i คือτเมื่อi i , และความแปรปรวนของY s , ฉันคือτ + σ 2Ys,iYs,iτiiYs,iτ+σ2 : คะแนนของนักเรียนจากโรงเรียนเดียวกันจะมีความสัมพันธ์กับค่าเดินทางที่คาดหวังไว้ .

ตัวอย่างและข้อมูลจำลอง

นี่คือการจำลอง R สั้น ๆ สำหรับนักเรียนห้าสิบคนจากห้าโรงเรียน (ที่นี่ฉันรับ ); ชื่อของตัวแปรคือการจัดทำเอกสารด้วยตนเอง: σ2=τ=1

set.seed(1)
school        <- rep(1:5, each=10)
school_effect <- rnorm(5)

school_effect_by_ind <- rep(school_effect, each=10)
individual_effect    <- rnorm(50)

เราพล็อตการออกเดินทางจากชั้นประถมศึกษาปีที่คาดหวังสำหรับนักเรียนแต่ละคนนั่นคือข้อกำหนดของพร้อมกับ (เส้นประ) ค่าเฉลี่ยการออกเดินทางสำหรับแต่ละโรงเรียน:schools+es,i

plot(individual_effect + school_effect_by_ind, col=school, pch=19, 
     xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)

แบบผสม

ตอนนี้เรามาคอมเม้นท์เรื่องนี้กันดีกว่า ระดับของแต่ละเส้นประ (ตรงกับ ) จะถูกวาดที่สุ่มในกฎหมายปกติ ศัพท์เฉพาะของนักเรียนจะถูกสุ่มให้เป็นกฎปกติซึ่งจะตรงกับระยะทางของคะแนนจากเส้นประ ค่าที่ได้คือนักเรียนแต่ละคนออกเดินทางจากα + ชั่วโมงβschoolsα+hoursβซึ่งเป็นเกรดที่กำหนดโดยเวลาที่ใช้ในการทำงาน เป็นผลให้นักเรียนในโรงเรียนเดียวกันมีความคล้ายคลึงกันมากกว่านักเรียนจากโรงเรียนที่แตกต่างกันตามที่คุณระบุไว้ในคำถามของคุณ

เมทริกซ์ความแปรปรวนสำหรับตัวอย่างนี้

schoolses,i

[A00000A00000A00000A00000A]
10×10A
A=[2111111111121111111111211111111112111111111121111111111211111111112111111111121111111111211111111112].

1
Elvis: thats probably a great answer for people more versed in statistics than I. However I can extract little meaning from it. Could you edit your response in a way that a 12 year old might be able to understand?
luciano

1
A... 12 years old?! Wow! I will add some simulations, if this can help.
Elvis

5
Done. Hope this helps. If not, please be more specific about what you don’t get. Note that a 12 yo would not understand the question either... you can’t ask for an answer simpler than the question.
Elvis
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.