ฉันพบว่าแบบฝึกหัดการวิเคราะห์ข้อมูลอย่างง่ายมักจะสามารถช่วยอธิบายและอธิบายแนวคิดทางสถิติได้ แบบฝึกหัดการวิเคราะห์ข้อมูลใดที่คุณใช้เพื่อสอนแนวคิดทางสถิติ
ฉันพบว่าแบบฝึกหัดการวิเคราะห์ข้อมูลอย่างง่ายมักจะสามารถช่วยอธิบายและอธิบายแนวคิดทางสถิติได้ แบบฝึกหัดการวิเคราะห์ข้อมูลใดที่คุณใช้เพื่อสอนแนวคิดทางสถิติ
คำตอบ:
เนื่องจากฉันต้องอธิบายวิธีการเลือกตัวแปรที่ค่อนข้างบ่อยไม่ใช่ในบริบทของการสอน แต่สำหรับผู้ที่ไม่ใช่นักสถิติขอความช่วยเหลือจากการวิจัยของพวกเขาฉันชอบตัวอย่างง่าย ๆ นี้ที่แสดงให้เห็นว่าทำไมการเลือกตัวแปรเดี่ยวจึงไม่ใช่ความคิดที่ดี
หากคุณมีชุดข้อมูลนี้:
y X1 x2
1 1 1
1 0 0
0 1 0
0 0 1
ใช้เวลาไม่นานที่จะรู้ว่าทั้ง X1 และ X2 เป็นรายบุคคลที่ไม่ใช่ข้อมูลสมบูรณ์สำหรับ y (เมื่อพวกเขาเหมือนกัน y คือ 'แน่นอน' ถึง 1 - ฉันไม่สนใจปัญหาขนาดตัวอย่างที่นี่เพียงแค่สมมติว่าข้อสังเกตทั้งสี่นี้ เป็นทั้งจักรวาล) อย่างไรก็ตามการรวมกันของตัวแปรทั้งสองนั้นเป็นข้อมูลที่สมบูรณ์ ดังนั้นจึงเป็นเรื่องง่ายสำหรับผู้ที่จะเข้าใจว่าทำไมจึงไม่ใช่ความคิดที่ดีที่จะ (เช่น) ตรวจสอบเฉพาะค่า p สำหรับรุ่นที่มีตัวแปรแต่ละตัวเป็น regressor
จากประสบการณ์ของฉันสิ่งนี้ได้รับข้อความผ่านจริงๆ
ค่าสัมประสิทธิ์การถดถอยหลายครั้งและการเข้าใจผิดของสัญญาณที่คาดหวัง
หนึ่งในภาพประกอบโปรดของแนวคิดทางสถิติผ่านการฝึกวิเคราะห์ข้อมูลคือโครงสร้างของการถดถอยหลายครั้งในการถดถอยแบบหลายตัวแปร
วัตถุประสงค์
แนวคิด
สัมประสิทธิ์การถดถอยในแบบจำลองการถดถอยหลายตัวแสดงถึงความสัมพันธ์ระหว่าง a) ส่วนของตัวแปรทำนายที่กำหนด (x1) ที่ไม่เกี่ยวข้องกับตัวแปรทำนายอื่น ๆ (x2 ... xN) ในแบบจำลอง และ 2) ส่วนของตัวแปรตอบกลับ (Y) ที่ไม่เกี่ยวข้องกับตัวแปรทำนายอื่น ๆ ทั้งหมด (x2 ... xN) ในโมเดล เมื่อมีความสัมพันธ์กันในหมู่ผู้ทำนายสัญญาณที่เกี่ยวข้องกับสัมประสิทธิ์การทำนายจะแสดงถึงความสัมพันธ์ระหว่างส่วนที่เหลือ
การออกกำลังกาย
สัมประสิทธิ์สำหรับขั้นตอนที่ 4 สำหรับ r2 จะเป็นค่าสัมประสิทธิ์ของ x1 สำหรับโมเดลการถดถอยแบบหลายค่าด้วย x1 และ x2 คุณสามารถทำเช่นเดียวกันกับ x2 โดยการแยกส่วน x1 ออกมาสำหรับทั้ง y และ x2
นี่คือรหัส R บางส่วนสำหรับแบบฝึกหัดนี้
set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2) # Multiple regression Model
ry1 <- residuals( lm( y ~ x2) ) # The part of y not related to x2
rx1 <- residuals( lm(x1 ~ x2) ) # The part of x1 not related to x2
lm( ry1 ~ rx1)
ry2 <- residuals( lm( y ~ x1) ) # The part of y not related to x1
rx2 <- residuals( lm(x2 ~ x1) ) # The part of x2 not related to x1
lm( ry2 ~ rx2)
นี่คือผลลัพธ์และผลลัพธ์ที่เกี่ยวข้อง
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) ***x1*** ***x2***
-0.02410 ***1.89527*** ***5.07549***
Call:
lm(formula = ry1 ~ rx1)
Coefficients:
(Intercept) ***rx1***
-2.854e-17 ***1.895e+00***
Call:
lm(formula = ry2 ~ rx2)
Coefficients:
(Intercept) ***rx2***
3.406e-17 ***5.075e+00***