ไม่ ส่วนที่เหลือคือค่าเงื่อนไขบน (ลบค่าเฉลี่ยที่คาดการณ์ของที่แต่ละจุดใน ) คุณสามารถเปลี่ยนในแบบที่คุณต้องการ ( , , ) และค่าที่สอดคล้องกับค่าที่จุดที่กำหนดในจะไม่เปลี่ยนแปลง ดังนั้นการแจกแจงแบบมีเงื่อนไขของ (เช่น ) จะเท่ากัน นั่นคือมันจะเป็นปกติหรือไม่เหมือนเมื่อก่อน (เพื่อให้เข้าใจหัวข้อนี้อย่างเต็มที่ยิ่งขึ้นมันอาจช่วยให้คุณอ่านคำตอบของฉันที่นี่:X Y X X X + 10 X - 1 / 5 X / π Y X X Y Y | XYXYXXX+10X−1/5X/πYXXYY|Xจะเกิดอะไรขึ้นถ้ามีการแจกจ่ายสารตกค้างตามปกติ แต่ Y ไม่ใช่ )
สิ่งที่เปลี่ยนแปลงอาจจะทำ (ขึ้นอยู่กับลักษณะของการเปลี่ยนแปลงข้อมูลที่คุณใช้) คือการเปลี่ยนความสัมพันธ์ทำงานระหว่างและYด้วยการเปลี่ยนแปลงที่ไม่ใช่เชิงเส้นใน (เช่นเพื่อลบความเอียง) โมเดลที่ระบุไว้อย่างถูกต้องมาก่อนจะกลายเป็น misspecified การแปลงที่ไม่ใช่เชิงเส้นของมักใช้เพื่อทำให้ความสัมพันธ์เป็นเส้นตรงระหว่างและทำให้ความสัมพันธ์ตีความได้มากขึ้นหรือเพื่อตอบคำถามเชิงทฤษฎีที่แตกต่างกัน X Y X X X YXXYXXXY
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการแปลงแบบไม่เชิงเส้นสามารถเปลี่ยนรูปแบบและคำถามที่คำตอบของแบบจำลอง (โดยเน้นที่การแปลงแบบบันทึก) มันอาจช่วยให้คุณอ่านหัวข้อ CV ที่ยอดเยี่ยมเหล่านี้:
การแปลงเชิงเส้นสามารถเปลี่ยนค่าพารามิเตอร์ของคุณได้ แต่จะไม่มีผลต่อความสัมพันธ์ในการทำงาน ตัวอย่างเช่นถ้าคุณศูนย์ทั้งและก่อนที่จะใช้การถดถอย, ตัด,จะกลายเป็น0ถ้าคุณหารด้วยค่าคงที่ (พูดว่าเปลี่ยนจากเซนติเมตรเป็นเมตร) ความชันจะถูกคูณด้วยค่าคงที่นั้น (เช่น , นั่นคือจะเพิ่มขึ้น 100 เท่ามากกว่า 1 เมตรมากกว่าที่จะมากกว่า 1 ซม. Y เบต้า 0 0 X β 1 ( ม. ) = 100 × β 1 ( คเมตร) YXYβ^00Xβ^1 (m)=100×β^1 (cm)Y
ในทางกลับกันการแปลงที่ไม่ใช่เชิงเส้นของจะส่งผลกระทบต่อการกระจายตัวของเศษซาก ในความเป็นจริงการแปลงเป็นข้อเสนอแนะทั่วไปสำหรับการทำให้ค่าส่วนที่เหลือเป็นมาตรฐาน การเปลี่ยนแปลงเช่นนี้จะทำให้พวกมันมากกว่าหรือน้อยกว่าปกติขึ้นอยู่กับการกระจายตัวเริ่มต้นของส่วนที่เหลือ ( ไม่ใช่การกระจายตัวเริ่มต้นของ ) และการแปลงที่ใช้ กลยุทธ์ทั่วไปคือการปรับให้เหมาะสมกับพารามิเตอร์ของตระกูล Box-Cox ของการแจกแจง คำเตือนมีความเหมาะสมที่นี่: การแปลงที่ไม่ใช่เชิงเส้นของสามารถทำให้แบบจำลองของคุณผิดพลาดเช่นเดียวกับการแปลงที่ไม่ใช่เชิงเส้นของสามารถ Y Y λ Y XY YYλYX
ทีนี้จะเกิดอะไรขึ้นถ้าทั้ง และเป็นปกติ? ในความเป็นจริงนั้นไม่ได้รับประกันว่าการกระจายตัวของข้อต่อจะเป็นปกติ (ดูคำตอบที่ยอดเยี่ยมของ @ cardinal ที่นี่: เป็นไปได้ไหมที่จะมีคู่ของตัวแปรสุ่มแบบเกาส์ที่การแจกแจงแบบร่วมไม่ใช่แบบเกาส์ ) YXY
แน่นอนว่าสิ่งเหล่านั้นดูเหมือนจะเป็นไปได้ที่ค่อนข้างแปลกดังนั้นหากการกระจายตัวเล็กน้อยปรากฏเป็นปกติและการกระจายข้อต่อยังปรากฏตามปกติด้วย bivariate สิ่งนี้จำเป็นหรือไม่ที่จะต้องมีการกระจายตัวของสารตกค้างด้วยเช่นกัน? ขณะที่ผมพยายามที่จะแสดงในคำตอบของฉันฉันเชื่อมโยงกับข้างต้นถ้าเหลือจะกระจายตามปกติธรรมดาของขึ้นอยู่กับการกระจายของXอย่างไรก็ตามมันไม่เป็นความจริงเลยที่กฎเกณฑ์ของส่วนที่เหลือนั้นได้รับแรงผลักดันจากความเป็นปกติของมาร์จิ้น ลองพิจารณาตัวอย่างง่ายๆนี้ (เขียนด้วย): XYXR
set.seed(9959) # this makes the example exactly reproducible
x = rnorm(100) # x is drawn from a normal population
y = 7 + 0.6*x + runif(100) # the residuals are drawn from a uniform population
mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.4908 -0.2250 -0.0292 0.2539 0.5303
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 7.48327 0.02980 251.1 <2e-16 ***
# x 0.62081 0.02971 20.9 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared: 0.8167, Adjusted R-squared: 0.8148
# F-statistic: 436.7 on 1 and 98 DF, p-value: < 2.2e-16

ในพล็อตเราจะเห็นว่าระยะขอบทั้งสองดูเหมือนปกติพอสมควร อย่างไรก็ตามความสม่ำเสมอของสารตกค้างปรากฏขึ้นใน qq-plot; หางทั้งสองตกลงไปเร็วเกินไปเมื่อเทียบกับการแจกแจงแบบปกติ