การกระจายแบบปกติ X และ Y มีแนวโน้มที่จะส่งผลให้เกิดการตกค้างแบบกระจายตามปกติหรือไม่


12

ที่นี่การตีความที่ผิดของสมมติฐานของภาวะปกติในการถดถอยเชิงเส้นถูกกล่าวถึง (ที่ 'ปกติ' หมายถึง X และ / หรือ Y มากกว่าที่เหลือ) และโปสเตอร์ถามว่ามันเป็นไปได้ที่จะมีการกระจาย X และ Y ไม่ปกติ และยังคงมีการกระจายสารตกค้างตามปกติ

คำถามของฉันคือ: โดยทั่วไปมีการกระจาย X และ Y มีแนวโน้มที่จะส่งผลให้ส่วนที่เหลือกระจายตามปกติ? มีการโพสต์ที่เกี่ยวข้องมากมาย แต่ฉันไม่เชื่อว่ามีใครถามคำถามนี้โดยเฉพาะ

ฉันรู้ว่านี่อาจเป็นจุดที่น่าสนใจหากมีเพียงการถดถอยเพียงครั้งเดียวที่ต้องทำ แต่ก็น้อยลงหากมีการทดสอบหลายครั้ง สมมติว่าฉันมีตัวแปร 100 X ซึ่งทั้งหมดมีความเบ้เหมือนกันและฉันต้องการทดสอบพวกเขาทั้งหมด ถ้าฉันเปลี่ยนพวกมันทั้งหมดเป็นการกระจายตัวแบบปกติมันจะเป็นไปได้ไหมที่ฉันจะมีตัวแปร X น้อยกว่าที่ต้องการการตรวจสอบอีกครั้ง (โดยไม่มีการแปลงที่ต่างกัน / ไม่มีการเปลี่ยนแปลง) เนื่องจากเศษซากที่ไม่กระจายตามปกติ


1
เพื่อตอบว่า "มีโอกาสมากขึ้น" เราน่าจะต้องวางตัวบางอย่างเกี่ยวกับการกระจายตัวของข้อต่อไม่ใช่แค่ระยะขอบ
Glen_b -Reinstate Monica

คำตอบ:


15

ไม่ ส่วนที่เหลือคือค่าเงื่อนไขบน (ลบค่าเฉลี่ยที่คาดการณ์ของที่แต่ละจุดใน ) คุณสามารถเปลี่ยนในแบบที่คุณต้องการ ( , , ) และค่าที่สอดคล้องกับค่าที่จุดที่กำหนดในจะไม่เปลี่ยนแปลง ดังนั้นการแจกแจงแบบมีเงื่อนไขของ (เช่น ) จะเท่ากัน นั่นคือมันจะเป็นปกติหรือไม่เหมือนเมื่อก่อน (เพื่อให้เข้าใจหัวข้อนี้อย่างเต็มที่ยิ่งขึ้นมันอาจช่วยให้คุณอ่านคำตอบของฉันที่นี่:X Y X X X + 10 X - 1 / 5 X / π Y X X Y Y | XYXYXXX+10X1/5X/πYXXYY|Xจะเกิดอะไรขึ้นถ้ามีการแจกจ่ายสารตกค้างตามปกติ แต่ Y ไม่ใช่ )

สิ่งที่เปลี่ยนแปลงอาจจะทำ (ขึ้นอยู่กับลักษณะของการเปลี่ยนแปลงข้อมูลที่คุณใช้) คือการเปลี่ยนความสัมพันธ์ทำงานระหว่างและYด้วยการเปลี่ยนแปลงที่ไม่ใช่เชิงเส้นใน (เช่นเพื่อลบความเอียง) โมเดลที่ระบุไว้อย่างถูกต้องมาก่อนจะกลายเป็น misspecified การแปลงที่ไม่ใช่เชิงเส้นของมักใช้เพื่อทำให้ความสัมพันธ์เป็นเส้นตรงระหว่างและทำให้ความสัมพันธ์ตีความได้มากขึ้นหรือเพื่อตอบคำถามเชิงทฤษฎีที่แตกต่างกัน X Y X X X YXXYXXXY

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการแปลงแบบไม่เชิงเส้นสามารถเปลี่ยนรูปแบบและคำถามที่คำตอบของแบบจำลอง (โดยเน้นที่การแปลงแบบบันทึก) มันอาจช่วยให้คุณอ่านหัวข้อ CV ที่ยอดเยี่ยมเหล่านี้:

การแปลงเชิงเส้นสามารถเปลี่ยนค่าพารามิเตอร์ของคุณได้ แต่จะไม่มีผลต่อความสัมพันธ์ในการทำงาน ตัวอย่างเช่นถ้าคุณศูนย์ทั้งและก่อนที่จะใช้การถดถอย, ตัด,จะกลายเป็น0ถ้าคุณหารด้วยค่าคงที่ (พูดว่าเปลี่ยนจากเซนติเมตรเป็นเมตร) ความชันจะถูกคูณด้วยค่าคงที่นั้น (เช่น , นั่นคือจะเพิ่มขึ้น 100 เท่ามากกว่า 1 เมตรมากกว่าที่จะมากกว่า 1 ซม. Y เบต้า 0 0 X β 1 ( ม. ) = 100 × β 1 ( เมตร) YXYβ^00Xβ^1 (m)=100×β^1 (cm)Y


ในทางกลับกันการแปลงที่ไม่ใช่เชิงเส้นของจะส่งผลกระทบต่อการกระจายตัวของเศษซาก ในความเป็นจริงการแปลงเป็นข้อเสนอแนะทั่วไปสำหรับการทำให้ค่าส่วนที่เหลือเป็นมาตรฐาน การเปลี่ยนแปลงเช่นนี้จะทำให้พวกมันมากกว่าหรือน้อยกว่าปกติขึ้นอยู่กับการกระจายตัวเริ่มต้นของส่วนที่เหลือ ( ไม่ใช่การกระจายตัวเริ่มต้นของ ) และการแปลงที่ใช้ กลยุทธ์ทั่วไปคือการปรับให้เหมาะสมกับพารามิเตอร์ของตระกูล Box-Cox ของการแจกแจง คำเตือนมีความเหมาะสมที่นี่: การแปลงที่ไม่ใช่เชิงเส้นของสามารถทำให้แบบจำลองของคุณผิดพลาดเช่นเดียวกับการแปลงที่ไม่ใช่เชิงเส้นของสามารถ Y Y λ Y XY YYλYX


ทีนี้จะเกิดอะไรขึ้นถ้าทั้ง และเป็นปกติ? ในความเป็นจริงนั้นไม่ได้รับประกันว่าการกระจายตัวของข้อต่อจะเป็นปกติ (ดูคำตอบที่ยอดเยี่ยมของ @ cardinal ที่นี่: เป็นไปได้ไหมที่จะมีคู่ของตัวแปรสุ่มแบบเกาส์ที่การแจกแจงแบบร่วมไม่ใช่แบบเกาส์ ) YXY

แน่นอนว่าสิ่งเหล่านั้นดูเหมือนจะเป็นไปได้ที่ค่อนข้างแปลกดังนั้นหากการกระจายตัวเล็กน้อยปรากฏเป็นปกติและการกระจายข้อต่อยังปรากฏตามปกติด้วย bivariate สิ่งนี้จำเป็นหรือไม่ที่จะต้องมีการกระจายตัวของสารตกค้างด้วยเช่นกัน? ขณะที่ผมพยายามที่จะแสดงในคำตอบของฉันฉันเชื่อมโยงกับข้างต้นถ้าเหลือจะกระจายตามปกติธรรมดาของขึ้นอยู่กับการกระจายของXอย่างไรก็ตามมันไม่เป็นความจริงเลยที่กฎเกณฑ์ของส่วนที่เหลือนั้นได้รับแรงผลักดันจากความเป็นปกติของมาร์จิ้น ลองพิจารณาตัวอย่างง่ายๆนี้ (เขียนด้วย): XYXR

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

ป้อนคำอธิบายรูปภาพที่นี่

ในพล็อตเราจะเห็นว่าระยะขอบทั้งสองดูเหมือนปกติพอสมควร อย่างไรก็ตามความสม่ำเสมอของสารตกค้างปรากฏขึ้นใน qq-plot; หางทั้งสองตกลงไปเร็วเกินไปเมื่อเทียบกับการแจกแจงแบบปกติ


0

คำตอบสั้น ๆ คือทฤษฎีการถดถอยอย่างง่ายคลาสสิก X ได้รับการแก้ไขและสันนิษฐานว่าเป็นที่รู้จัก (ดูตัวอย่างเช่นhttp://www.theanalysisfactor.com/the-distribution-of-indrants-variables-in-regression-models-2/) ) แม้ไม่มีข้อผิดพลาดในการวัด แต่อย่างใด Least-squares เบต้าของคุณอาจมีอคติและไม่สอดคล้องกัน (ดูhttps://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu) .edu / mrg217 / รัฐ / measurement_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & USG = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FiZbZ7323jOzA )

ด้วยความเคารพต่อการทำให้ X เป็นตัวแปรวิกิพีเดียในทฤษฎีบทเกาส์ - มาร์กอฟกล่าวอย่างย่อ ๆ ว่า:

"ในการรักษาส่วนใหญ่ของ OLS ข้อมูลXจะถือว่าคงที่ข้อสันนิษฐานนี้ถือว่าไม่เหมาะสมสำหรับวิทยาศาสตร์ที่ไม่มีผู้มีประสบการณ์เช่นเศรษฐมิติ [2] แทนสมมติฐานของทฤษฎีบทเกาส์ - มาร์กอฟระบุด้วยเงื่อนไขX "

ซึ่งฉันอ่านว่าเป็นการเปลี่ยนแปลงครั้งสำคัญที่ไม่สะดุดตาจากวิทยาศาสตร์สู่ศิลปะหรือศิลปะ / วิทยาศาสตร์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.