การเรียนรู้แนวคิดทางสถิติผ่านแบบฝึกหัดการวิเคราะห์ข้อมูล


18

ฉันพบว่าแบบฝึกหัดการวิเคราะห์ข้อมูลอย่างง่ายมักจะสามารถช่วยอธิบายและอธิบายแนวคิดทางสถิติได้ แบบฝึกหัดการวิเคราะห์ข้อมูลใดที่คุณใช้เพื่อสอนแนวคิดทางสถิติ

คำตอบ:


9

เนื่องจากฉันต้องอธิบายวิธีการเลือกตัวแปรที่ค่อนข้างบ่อยไม่ใช่ในบริบทของการสอน แต่สำหรับผู้ที่ไม่ใช่นักสถิติขอความช่วยเหลือจากการวิจัยของพวกเขาฉันชอบตัวอย่างง่าย ๆ นี้ที่แสดงให้เห็นว่าทำไมการเลือกตัวแปรเดี่ยวจึงไม่ใช่ความคิดที่ดี

หากคุณมีชุดข้อมูลนี้:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

ใช้เวลาไม่นานที่จะรู้ว่าทั้ง X1 และ X2 เป็นรายบุคคลที่ไม่ใช่ข้อมูลสมบูรณ์สำหรับ y (เมื่อพวกเขาเหมือนกัน y คือ 'แน่นอน' ถึง 1 - ฉันไม่สนใจปัญหาขนาดตัวอย่างที่นี่เพียงแค่สมมติว่าข้อสังเกตทั้งสี่นี้ เป็นทั้งจักรวาล) อย่างไรก็ตามการรวมกันของตัวแปรทั้งสองนั้นเป็นข้อมูลที่สมบูรณ์ ดังนั้นจึงเป็นเรื่องง่ายสำหรับผู้ที่จะเข้าใจว่าทำไมจึงไม่ใช่ความคิดที่ดีที่จะ (เช่น) ตรวจสอบเฉพาะค่า p สำหรับรุ่นที่มีตัวแปรแต่ละตัวเป็น regressor

จากประสบการณ์ของฉันสิ่งนี้ได้รับข้อความผ่านจริงๆ


5

ค่าสัมประสิทธิ์การถดถอยหลายครั้งและการเข้าใจผิดของสัญญาณที่คาดหวัง

หนึ่งในภาพประกอบโปรดของแนวคิดทางสถิติผ่านการฝึกวิเคราะห์ข้อมูลคือโครงสร้างของการถดถอยหลายครั้งในการถดถอยแบบหลายตัวแปร

วัตถุประสงค์

  • เพื่ออธิบายความหมายของสัมประสิทธิ์การถดถอยในที่ที่มีตัวพยากรณ์หลายตัว
  • เพื่อแสดงให้เห็นว่าเหตุใดจึงไม่ถูกต้องที่ "คาดหวัง" สัมประสิทธิ์การถดถอยหลายครั้งที่จะมีเครื่องหมายเฉพาะขึ้นอยู่กับความสัมพันธ์ที่แปรปรวนร่วมกับ Y เมื่อตัวทำนายมีความสัมพันธ์กัน

แนวคิด

สัมประสิทธิ์การถดถอยในแบบจำลองการถดถอยหลายตัวแสดงถึงความสัมพันธ์ระหว่าง a) ส่วนของตัวแปรทำนายที่กำหนด (x1) ที่ไม่เกี่ยวข้องกับตัวแปรทำนายอื่น ๆ (x2 ... xN) ในแบบจำลอง และ 2) ส่วนของตัวแปรตอบกลับ (Y) ที่ไม่เกี่ยวข้องกับตัวแปรทำนายอื่น ๆ ทั้งหมด (x2 ... xN) ในโมเดล เมื่อมีความสัมพันธ์กันในหมู่ผู้ทำนายสัญญาณที่เกี่ยวข้องกับสัมประสิทธิ์การทำนายจะแสดงถึงความสัมพันธ์ระหว่างส่วนที่เหลือ

การออกกำลังกาย

  1. สร้างข้อมูลสุ่มบางอย่างสำหรับผู้ทำนายสองคน (x1, x2) และการตอบกลับ (y)
  2. ถอยหลัง y บน x2 และเก็บส่วนที่เหลือ
  3. Regress x1 บน x2 และจัดเก็บส่วนที่เหลือ
  4. ถอยหลังส่วนที่เหลือของขั้นตอนที่ 2 (r1) บนส่วนที่เหลือของขั้นตอนที่ 3 (r2)

สัมประสิทธิ์สำหรับขั้นตอนที่ 4 สำหรับ r2 จะเป็นค่าสัมประสิทธิ์ของ x1 สำหรับโมเดลการถดถอยแบบหลายค่าด้วย x1 และ x2 คุณสามารถทำเช่นเดียวกันกับ x2 โดยการแยกส่วน x1 ออกมาสำหรับทั้ง y และ x2

นี่คือรหัส R บางส่วนสำหรับแบบฝึกหัดนี้

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

นี่คือผลลัพธ์และผลลัพธ์ที่เกี่ยวข้อง

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00*** 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.