จะเกิดอะไรขึ้นถ้าการกระจายตัวของสารตกค้างเป็นปกติ แต่ y ไม่ใช่?


110

ฉันมีคำถามแปลก ๆ สมมติว่าคุณมีตัวอย่างขนาดเล็กที่ตัวแปรตามที่คุณจะวิเคราะห์ด้วยตัวแบบเชิงเส้นอย่างง่ายเอียงซ้ายอย่างมาก ดังนั้นคุณคิดว่าไม่ได้กระจายตามปกติเพราะนี้จะส่งผลให้การกระจายตามปกติYแต่เมื่อคุณคำนวณพล็อต QQ-Normal มีหลักฐานแสดงว่าส่วนที่เหลือจะกระจายตามปกติ ดังนั้นทุกคนสามารถสันนิษฐานได้ว่าคำว่าข้อผิดพลาดนั้นมีการแจกแจงแบบปกติแม้ว่าจะไม่ใช่ ดังนั้นมันหมายความว่าอย่างไรเมื่อคำว่าข้อผิดพลาดดูเหมือนว่าจะกระจายตามปกติ แต่ไม่ได้?uyyy

คำตอบ:


143

มันเหมาะสมสำหรับส่วนที่เหลือในปัญหาการถดถอยที่จะกระจายตามปกติแม้ว่าตัวแปรตอบสนองจะไม่ พิจารณาปัญหาการถดถอย univariate ที่2) เพื่อให้รูปแบบการถดถอยเป็นไปอย่างเหมาะสมและต่อไปคิดว่ามูลค่าที่แท้จริงของ 1 ในกรณีนี้ในขณะที่เหลือของรูปแบบการถดถอยที่แท้จริงเป็นปกติการกระจายของขึ้นอยู่กับการกระจายของเป็นค่าเฉลี่ยตามเงื่อนไขของเป็นหน้าที่ของxหากชุดข้อมูลที่มีจำนวนมากของค่าของที่อยู่ใกล้กับศูนย์และมีความก้าวหน้าน้อยที่สูงกว่าค่าของแล้วการกระจายของyN(βx,σ2)β=1yxyxxxyจะเอียงไปทางซ้าย หากค่าของถูกกระจายแบบสมมาตรแล้วจะถูกกระจายแบบสมมาตรและอื่น ๆ สำหรับปัญหาการถดถอยเราคิดว่าการตอบสนองเป็นปกติปรับอากาศกับค่าของxxyx


9
(+1) ฉันคิดว่าไม่สามารถทำซ้ำได้บ่อยครั้งพอ! ดูเพิ่มเติมปัญหาเดียวกันกล่าวถึงที่นี่
Wolfgang

1
ฉันเข้าใจคำตอบของคุณและฟังดูถูกต้อง อย่างน้อยคุณก็ได้รับคะแนนโหวตเป็นบวก :) แต่ฉันก็ไม่มีความสุขเลย ดังนั้นในตัวอย่างของคุณสมมติฐานที่คุณได้ทำมี{2}) แต่เมื่อฉันประมาณถดถอยฉันประมาณx) ดังนั้นควรให้ในเวลาที่ฉันประมาณค่าเฉลี่ย จากนี้ควรเป็นไปตามที่ x เป็นค่าและฉันไม่สนใจว่ามันจะถูกกระจายไปก่อนที่จะรู้ตัว ดังนั้นคือการกระจายของปีฉันไม่เข้าใจที่มีผลกระทบต่อปีβ=1yN(1x,σ2)E(y|x)xyN(value,σ2)yxy
MarkDollar

4
ฉันค่อนข้างประหลาดใจด้วยจำนวนคะแนนเสียงเช่นกัน o) เพื่อให้ได้ข้อมูลที่ใช้ในแบบจำลองการถดถอยคุณได้นำตัวอย่างจากการแจกแจงแบบร่วมบางส่วนซึ่งคุณต้องการประเมินx) อย่างไรก็ตามเนื่องจากเป็นฟังก์ชัน (มีเสียงรบกวน) ของการกระจายตัวของตัวอย่างของจะต้องขึ้นอยู่กับการกระจายตัวของตัวอย่างของสำหรับตัวอย่างนั้น คุณอาจไม่สนใจในการแจกแจง "จริง" ของแต่การแจกแจงตัวอย่างของ y ขึ้นอยู่กับตัวอย่างของ x p(y,x)E(y|x)yxyxx
Dikran Marsupial

2
ลองพิจารณาตัวอย่างของการประมาณอุณหภูมิ ( ) เป็นฟังก์ชันของ lattitude ( ) การแจกแจงค่าในตัวอย่างของเราจะขึ้นอยู่กับว่าเราเลือกสถานีอากาศออกจากที่ใด ถ้าเราวางพวกมันไว้ที่เสาหรือเส้นศูนย์สูตรเราก็จะมีการกระจาย bimodal ถ้าเราวางมันลงบนกริดพื้นที่เท่ากันเป็นปกติเราจะได้การแจกแจงแบบ unimodal ของค่าแม้ว่าฟิสิกส์ของสภาพภูมิอากาศจะเหมือนกันสำหรับทั้งสองตัวอย่าง แน่นอนว่าสิ่งนี้จะส่งผลกระทบต่อรูปแบบการถดถอยที่เหมาะสมของคุณและการศึกษาของสิ่งนั้นเรียกว่า "covariate shift" HTHyxyy
Dikran Marsupial

ฉันสงสัยว่ายังว่าเป็นเงื่อนไขในการเข้าใจว่าข้อมูลที่นำมาใช้เป็นตัวอย่าง IID จากการดำเนินงานร่วมกันจำหน่ายx) E(y|x)p(y,x)
Dikran Marsupial

100

@DikranMarsupial ถูกต้องแน่นอน แต่มันเกิดขึ้นกับฉันว่ามันอาจจะดีที่จะแสดงให้เห็นถึงจุดของเขาโดยเฉพาะอย่างยิ่งเนื่องจากความกังวลนี้ดูเหมือนจะเกิดขึ้นบ่อยครั้ง โดยเฉพาะอย่างยิ่งที่เหลือของรูปแบบการถดถอยควรกระจายตามปกติเพื่อให้ค่า p ถูกต้อง อย่างไรก็ตามแม้ว่าโดยทั่วไปจะมีการกระจายเศษเหลือ แต่ก็ไม่รับประกันว่าจะเป็น (ไม่ใช่เรื่องสำคัญ ... ); มันขึ้นอยู่กับการกระจายของX XYX

ลองมาตัวอย่างง่าย ๆ (ซึ่งฉันกำลังทำขึ้น) สมมติว่าเรากำลังทดสอบยาสำหรับความดันโลหิตสูงแบบแยกตัว (กล่าวคือจำนวนความดันโลหิตสูงสุดนั้นสูงเกินไป) เราจะกำหนดเงื่อนไขต่อไปว่า systolic bp นั้นจะกระจายอยู่ในประชากรผู้ป่วยของเราด้วยค่าเฉลี่ย 160 & SD จาก 3 และสำหรับแต่ละมิลลิกรัมของยาที่ผู้ป่วยรับประทานในแต่ละวัน systolic bp จะลดลง 1 มม. ปรอท กล่าวอีกนัยหนึ่งค่าที่แท้จริงของคือ 160 และคือ -1 และฟังก์ชันการสร้างข้อมูลที่แท้จริงคือ: β 1 B P s y s = 160 - 1 × ปริมาณยาทุกวัน+ εβ0β1X

BPsys=1601×daily drug dosage+εwhere εN(0,9)
ในการศึกษาที่สมมติขึ้นของเราผู้ป่วย 300 คนได้รับการสุ่มให้กิน 0 มก. (ยาหลอก) 20 มก. หรือ 40 มก. ของยาใหม่นี้ต่อวัน (โปรดสังเกตว่าไม่ได้รับการกระจายตามปกติ) จากนั้นหลังจากระยะเวลาที่เพียงพอสำหรับยาที่จะมีผลข้อมูลของเราอาจมีลักษณะเช่นนี้: X

ป้อนคำอธิบายรูปภาพที่นี่

(ฉันกระวนกระวายใจปริมาณที่จะไม่ทับซ้อนกันจนยากที่จะแยกแยะความแตกต่าง) ตอนนี้เรามาดูการกระจายตัวของ (นั่นคือการกระจายตัวเล็กน้อย / ดั้งเดิม) และส่วนที่เหลือ: Y

ป้อนคำอธิบายรูปภาพที่นี่

qq-plot แสดงให้เราเห็นว่าไม่ปกติจากระยะไกล แต่ส่วนที่เหลือเป็นเรื่องปกติ พล็อตความหนาแน่นเคอร์เนลทำให้เราเห็นภาพของการแจกแจงที่เข้าถึงได้ง่ายขึ้น เป็นที่ชัดเจนว่าคือtri-modalในขณะที่ส่วนที่เหลือดูเหมือนการกระจายตัวแบบปกติ YYY

แต่สิ่งที่เกี่ยวกับรูปแบบการถดถอยที่เหมาะสมสิ่งที่เป็นผลกระทบของ &ไม่ปกติ (แต่ส่วนที่เหลือปกติ)? เพื่อตอบคำถามนี้เราต้องระบุสิ่งที่เราอาจกังวลเกี่ยวกับประสิทธิภาพโดยทั่วไปของตัวแบบการถดถอยในสถานการณ์เช่นนี้ ปัญหาแรกคือเบตาโดยเฉลี่ยใช่มั้ย (แน่นอนพวกเขาจะตีกลับรอบบางส่วน แต่ในระยะยาวจะมีการกระจายตัวอย่างของเบต้ามีศูนย์กลางอยู่ที่ค่าที่แท้จริง?) นี่คือคำถามของอคติ อีกประเด็นคือเราสามารถเชื่อถือค่า p ที่เราได้รับได้หรือไม่? นั่นคือเมื่อสมมติฐานว่างเป็นจริงคือX p < .05 β 1YXp<.05เพียง 5% ของเวลา? ในการกำหนดสิ่งเหล่านี้เราสามารถจำลองข้อมูลจากกระบวนการสร้างข้อมูลข้างต้นและกรณีขนานที่ยาไม่มีผลเป็นจำนวนมากครั้ง จากนั้นเราสามารถพล็อตการแจกแจงตัวอย่างของและตรวจสอบเพื่อดูว่าพวกเขามีศูนย์กลางอยู่ที่มูลค่าที่แท้จริงและตรวจสอบความถี่ของความสัมพันธ์ว่า 'สำคัญ' ในกรณี null: β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

ป้อนคำอธิบายรูปภาพที่นี่

ผลลัพธ์เหล่านี้แสดงว่าทุกอย่างทำงานได้ดี

ฉันจะไม่ไปผ่านการเคลื่อนไหว แต่ถ้าได้รับการกระจายตามปกติด้วยมิฉะนั้นการตั้งค่าเดียวกันเดิมกระจาย / ร่อแร่ของจะได้รับการกระจายตามปกติเช่นเดียวกับคลาดเคลื่อน (แม้จะมี SD ขนาดใหญ่) ฉันยังไม่ได้แสดงให้เห็นถึงผลกระทบของการแจกแจงแบบเบ้ของ (ซึ่งเป็นแรงผลักดันที่อยู่เบื้องหลังคำถามนี้) แต่ประเด็นของ @ DikranMarsupial นั้นใช้ได้ในกรณีนั้นและมันอาจแสดงให้เห็นในทำนองเดียวกันY XX YX


1
ดังนั้นข้อสันนิษฐานของการกระจายตัวของสารตกค้างตามปกติจึงมีเพียงค่า p ที่ถูกต้องเท่านั้น ทำไมค่า p อาจผิดปกติหากเศษไม่ปกติ
อะโวคาโด

3
@loganecolss นั่นอาจจะดีกว่าสำหรับคำถามใหม่ ในอัตราใด ๆใช่ที่มันได้ทำ w / ว่า P-ค่าที่ถูกต้อง หากส่วนที่เหลือของคุณมีจำนวนไม่เพียงพอและไม่เป็นปกติ & N ของคุณอยู่ในระดับต่ำการกระจายตัวตัวอย่างจะแตกต่างจากที่ตั้งไว้ในทางทฤษฎี เนื่องจากค่า p คือจำนวนการแจกแจงการสุ่มตัวอย่างนั้นเกินสถิติการทดสอบของคุณค่า p จึงไม่ถูกต้อง
gung

0

ในรูปแบบการถดถอยที่เหมาะสมเราควรตรวจสอบความเป็นไปได้ของการตอบสนองในแต่ละระดับของ แต่ไม่รวมกันเนื่องจากมันไม่มีความหมายสำหรับจุดประสงค์นี้ หากคุณต้องการตรวจสอบความธรรมดาของจริงๆให้ตรวจสอบแต่ละระดับXY XYX


3
การกระจายตัวของการตอบสนองไม่ได้ "ไร้ความหมาย" เลย มันคือการกระจายการตอบสนองเล็กน้อย (และบ่อยครั้งควรบอกใบ้ที่รุ่นอื่นนอกเหนือจากการถดถอยธรรมดาที่มีข้อผิดพลาดปกติ) คุณกำลังเน้นว่าการแจกแจงตามเงื่อนไขมีความสำคัญเมื่อเราสร้างแบบจำลองที่เป็นปัญหา แต่สิ่งนี้ไม่ได้ช่วยเพิ่มคำตอบที่มีอยู่
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.