@DikranMarsupial ถูกต้องแน่นอน แต่มันเกิดขึ้นกับฉันว่ามันอาจจะดีที่จะแสดงให้เห็นถึงจุดของเขาโดยเฉพาะอย่างยิ่งเนื่องจากความกังวลนี้ดูเหมือนจะเกิดขึ้นบ่อยครั้ง โดยเฉพาะอย่างยิ่งที่เหลือของรูปแบบการถดถอยควรกระจายตามปกติเพื่อให้ค่า p ถูกต้อง อย่างไรก็ตามแม้ว่าโดยทั่วไปจะมีการกระจายเศษเหลือ แต่ก็ไม่รับประกันว่าจะเป็น (ไม่ใช่เรื่องสำคัญ ... ); มันขึ้นอยู่กับการกระจายของX XYX
ลองมาตัวอย่างง่าย ๆ (ซึ่งฉันกำลังทำขึ้น) สมมติว่าเรากำลังทดสอบยาสำหรับความดันโลหิตสูงแบบแยกตัว (กล่าวคือจำนวนความดันโลหิตสูงสุดนั้นสูงเกินไป) เราจะกำหนดเงื่อนไขต่อไปว่า systolic bp นั้นจะกระจายอยู่ในประชากรผู้ป่วยของเราด้วยค่าเฉลี่ย 160 & SD จาก 3 และสำหรับแต่ละมิลลิกรัมของยาที่ผู้ป่วยรับประทานในแต่ละวัน systolic bp จะลดลง 1 มม. ปรอท กล่าวอีกนัยหนึ่งค่าที่แท้จริงของคือ 160 และคือ -1 และฟังก์ชันการสร้างข้อมูลที่แท้จริงคือ:
β 1 B P s y s = 160 - 1 × ปริมาณยาทุกวัน+ εβ0β1X
BPsys=160−1×daily drug dosage+εwhere ε∼N(0,9)
ในการศึกษาที่สมมติขึ้นของเราผู้ป่วย 300 คนได้รับการสุ่มให้กิน 0 มก. (ยาหลอก) 20 มก. หรือ 40 มก. ของยาใหม่นี้ต่อวัน (โปรดสังเกตว่าไม่ได้รับการกระจายตามปกติ) จากนั้นหลังจากระยะเวลาที่เพียงพอสำหรับยาที่จะมีผลข้อมูลของเราอาจมีลักษณะเช่นนี้:
X
(ฉันกระวนกระวายใจปริมาณที่จะไม่ทับซ้อนกันจนยากที่จะแยกแยะความแตกต่าง) ตอนนี้เรามาดูการกระจายตัวของ (นั่นคือการกระจายตัวเล็กน้อย / ดั้งเดิม) และส่วนที่เหลือ: Y
qq-plot แสดงให้เราเห็นว่าไม่ปกติจากระยะไกล แต่ส่วนที่เหลือเป็นเรื่องปกติ พล็อตความหนาแน่นเคอร์เนลทำให้เราเห็นภาพของการแจกแจงที่เข้าถึงได้ง่ายขึ้น เป็นที่ชัดเจนว่าคือtri-modalในขณะที่ส่วนที่เหลือดูเหมือนการกระจายตัวแบบปกติ YYY
แต่สิ่งที่เกี่ยวกับรูปแบบการถดถอยที่เหมาะสมสิ่งที่เป็นผลกระทบของ &ไม่ปกติ (แต่ส่วนที่เหลือปกติ)? เพื่อตอบคำถามนี้เราต้องระบุสิ่งที่เราอาจกังวลเกี่ยวกับประสิทธิภาพโดยทั่วไปของตัวแบบการถดถอยในสถานการณ์เช่นนี้ ปัญหาแรกคือเบตาโดยเฉลี่ยใช่มั้ย (แน่นอนพวกเขาจะตีกลับรอบบางส่วน แต่ในระยะยาวจะมีการกระจายตัวอย่างของเบต้ามีศูนย์กลางอยู่ที่ค่าที่แท้จริง?) นี่คือคำถามของอคติ อีกประเด็นคือเราสามารถเชื่อถือค่า p ที่เราได้รับได้หรือไม่? นั่นคือเมื่อสมมติฐานว่างเป็นจริงคือX p < .05 β 1YXp<.05เพียง 5% ของเวลา? ในการกำหนดสิ่งเหล่านี้เราสามารถจำลองข้อมูลจากกระบวนการสร้างข้อมูลข้างต้นและกรณีขนานที่ยาไม่มีผลเป็นจำนวนมากครั้ง จากนั้นเราสามารถพล็อตการแจกแจงตัวอย่างของและตรวจสอบเพื่อดูว่าพวกเขามีศูนย์กลางอยู่ที่มูลค่าที่แท้จริงและตรวจสอบความถี่ของความสัมพันธ์ว่า 'สำคัญ' ในกรณี null: β1
set.seed(123456789) # this make the simulation repeatable
b0 = 160; b1 = -1; b1_null = 0 # these are the true beta values
x = rep(c(0, 20, 40), each=100) # the (non-normal) drug dosages patients get
estimated.b1s = vector(length=10000) # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values = vector(length=10000)
for(i in 1:10000){
residuals = rnorm(300, mean=0, sd=3)
y.works = b0 + b1*x + residuals
y.null = b0 + b1_null*x + residuals # everything is identical except b1
model.works = lm(y.works~x)
model.null = lm(y.null~x)
estimated.b1s[i] = coef(model.works)[2]
estimated.b1ns[i] = coef(model.null)[2]
null.p.values[i] = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s) # the sampling distributions are centered on the true values
[1] -1.000084
mean(estimated.b1ns)
[1] -8.43504e-05
mean(null.p.values<.05) # when the null is true, p<.05 5% of the time
[1] 0.0532
ผลลัพธ์เหล่านี้แสดงว่าทุกอย่างทำงานได้ดี
ฉันจะไม่ไปผ่านการเคลื่อนไหว แต่ถ้าได้รับการกระจายตามปกติด้วยมิฉะนั้นการตั้งค่าเดียวกันเดิมกระจาย / ร่อแร่ของจะได้รับการกระจายตามปกติเช่นเดียวกับคลาดเคลื่อน (แม้จะมี SD ขนาดใหญ่) ฉันยังไม่ได้แสดงให้เห็นถึงผลกระทบของการแจกแจงแบบเบ้ของ (ซึ่งเป็นแรงผลักดันที่อยู่เบื้องหลังคำถามนี้) แต่ประเด็นของ @ DikranMarsupial นั้นใช้ได้ในกรณีนั้นและมันอาจแสดงให้เห็นในทำนองเดียวกันY XX YX