การวิเคราะห์การถดถอยตอบคำถาม "ค่าเฉลี่ย Y คืออะไรสำหรับผู้ที่ได้รับค่า X" หรือเท่ากัน "Y คาดการณ์ว่าจะเปลี่ยนเป็น AVERAGE เท่าไหร่ถ้าเราเปลี่ยน X ทีละหน่วย?" ข้อผิดพลาดในการวัดแบบสุ่มไม่ได้เปลี่ยนค่าเฉลี่ยของตัวแปรหรือค่าเฉลี่ยสำหรับชุดย่อยของแต่ละคนดังนั้นข้อผิดพลาดแบบสุ่มในตัวแปรตามจะไม่ประมาณการถดถอยแบบอคติ
สมมติว่าคุณมีข้อมูลส่วนสูงของตัวอย่างบุคคล ความสูงเหล่านี้วัดได้อย่างแม่นยำมากสะท้อนความสูงจริงของทุกคนอย่างแม่นยำ ภายในตัวอย่างค่าเฉลี่ยสำหรับผู้ชายคือ 175 ซม. และค่าเฉลี่ยสำหรับผู้หญิงคือ 162 ซม. ถ้าคุณใช้การถดถอยเพื่อคำนวณว่าเพศทำนายความสูงได้ดีแค่ไหน
HEIGHT=CONSTANT+β∗GENDER+RESIDUAL
ถ้าผู้หญิงถูกเขียนเป็น 0 และผู้ชายเป็น 1เป็นค่าเฉลี่ยของผู้หญิงหรือ 162 ซม. สัมประสิทธิ์การถดถอยแสดงจำนวนความสูงที่เปลี่ยนแปลงโดยเฉลี่ยเมื่อคุณเปลี่ยนโดยหนึ่งหน่วย (จาก 0 ถึง 1) เท่ากับ 13 เพราะคนที่มีค่าคือ 0 (ผู้หญิง) มีความสูงเฉลี่ย 162 ซม. ในขณะที่คนที่มีค่าคือ 1 (ผู้ชาย) มีค่าเฉลี่ยสูง 175 ซม.; ประมาณความแตกต่างเฉลี่ยระหว่างความสูงของชายและหญิงซึ่งสูง 13 ซม. (สะท้อนให้เห็นถึงความแปรปรวนภายในเพศสูง)CONSTANTβGENDERβGENDERGENDERβRESIDUAL
ทีนี้ถ้าคุณเพิ่ม -1 ซม. หรือ +1 ซม. ในความสูงที่แท้จริงของทุกคนจะเกิดอะไรขึ้น บุคคลที่มีความสูงจริงคือ 170 ซม. ขณะนี้จะถูกรายงานว่าเป็น 169 หรือ 171 ซม. อย่างไรก็ตามค่าเฉลี่ยของตัวอย่างหรือตัวอย่างใด ๆ จะไม่เปลี่ยนแปลง ผู้ที่มีความสูงจริงคือ 170 ซม. จะเฉลี่ย 170 ซม. ในชุดข้อมูลที่ผิดพลาดผู้หญิงจะมีค่าเฉลี่ย 162 ซม. เป็นต้นหากคุณเรียกใช้โมเดลการถดถอยที่ระบุข้างต้นโดยใช้ชุดข้อมูลใหม่นี้ค่าที่คาดไว้ของจะไม่เปลี่ยนแปลงเนื่องจากความแตกต่างเฉลี่ยระหว่างชายและหญิงยังคงเป็น 13 ซม. โดยไม่คำนึงถึงข้อผิดพลาดในการวัด (ข้อผิดพลาดมาตรฐานของจะมีขนาดใหญ่กว่าก่อนเนื่องจากความแปรปรวนของตัวแปรตามมีขนาดใหญ่กว่านี้)ββ
หากมีข้อผิดพลาดในการวัดในตัวแปรอิสระมากกว่าตัวแปรขึ้นอยู่กับจะเป็นการประเมินแบบเอนเอียง ง่ายต่อการเข้าใจเมื่อคุณพิจารณาตัวอย่างความสูง หากมีข้อผิดพลาดในการวัดแบบสุ่มในตัวแปรผู้ชายบางคนจะถูกเขียนรหัสผิดเป็นเพศหญิงและในทางกลับกัน ผลของสิ่งนี้คือการลดความแตกต่างทางเพศที่เห็นได้ชัดในระดับสูงเพราะการย้ายผู้ชายไปยังกลุ่มผู้หญิงจะทำให้ค่าเฉลี่ยของผู้หญิงมีขนาดใหญ่ขึ้นในขณะที่การย้ายหญิงไปยังกลุ่มชายจะทำให้ค่าเฉลี่ยตัวเล็ก ด้วยข้อผิดพลาดการวัดในตัวแปรอิสระจะต่ำกว่าค่าที่ไม่เอนเอียงที่ 13 ซม.βGENDERβ
ในขณะที่ฉันใช้ตัวแปรอิสระอย่างเด็ดขาด ( ) เพื่อความเรียบง่ายที่นี่ตรรกะเดียวกันนี้ใช้กับตัวแปรต่อเนื่อง ตัวอย่างเช่นหากคุณใช้ตัวแปรต่อเนื่องเช่นความสูงของทารกเพื่อทำนายความสูงของผู้ใหญ่ค่าที่คาดหวังของจะเหมือนกันโดยไม่คำนึงถึงจำนวนข้อผิดพลาดแบบสุ่มในการวัดความสูงของผู้ใหญ่GENDERβ