ข้อสันนิษฐานของการถดถอยพหุคูณ: สมมติฐานเชิงบรรทัดฐานแตกต่างจากสมมติฐานความแปรปรวนคงที่อย่างไร


20

ฉันอ่านว่าสิ่งเหล่านี้เป็นเงื่อนไขสำหรับการใช้แบบจำลองการถดถอยหลายแบบ:

  1. รูปแบบที่เหลือเกือบปกติ
  2. ความแปรปรวนของส่วนที่เหลือเกือบคงที่
  3. ส่วนที่เหลือมีความเป็นอิสระและ
  4. แต่ละตัวแปรมีความสัมพันธ์เชิงเส้นตรงกับผลลัพธ์

1 และ 2 แตกต่างกันอย่างไร

คุณสามารถดูได้ที่นี่:

ป้อนคำอธิบายรูปภาพที่นี่

กราฟข้างบนบอกว่าส่วนที่เหลือซึ่งคือ 2 ส่วนเบี่ยงเบนมาตรฐานอยู่ 10 ห่างจาก Y-hat นั่นหมายความว่าส่วนที่เหลือจะเป็นไปตามการแจกแจงแบบปกติ คุณไม่สามารถอนุมาน 2 จากนี้ได้ใช่ไหม ความแปรปรวนของค่าคงที่เกือบคงที่หรือไม่


7
ฉันจะยืนยันว่าคำสั่งของคนเหล่านั้นผิด ตามลำดับความสำคัญฉันจะบอกว่า 4, 3, 2, 1 ด้วยวิธีนี้ข้อสมมติฐานเพิ่มเติมแต่ละข้ออนุญาตให้แบบจำลองสามารถใช้ในการแก้ปัญหาชุดใหญ่กว่าซึ่งตรงข้ามกับลำดับในคำถามของคุณซึ่งเป็นข้อสมมติฐานที่เข้มงวดที่สุด เป็นครั้งแรก
Matthew Drury

2
สมมติฐานเหล่านี้จำเป็นสำหรับสถิติเชิงอนุมาน ไม่มีการตั้งสมมติฐานเพื่อให้ผลรวมของข้อผิดพลาดกำลังสองลดลง
David Lane

1
ฉันเชื่อว่าฉันหมายถึง 1, 3, 2, 4 1 จะต้องพบกันอย่างน้อยประมาณเพื่อให้แบบจำลองมีประโยชน์อย่างมากเลย 3 จำเป็นสำหรับแบบจำลองที่จะต้องสอดคล้องกันเช่นมาบรรจบกับสิ่งที่มีเสถียรภาพเมื่อคุณได้รับข้อมูลเพิ่มเติม 2 จำเป็นสำหรับการประมาณค่าที่มีประสิทธิภาพนั่นคือไม่มีวิธีอื่นที่ดีกว่าในการใช้ข้อมูลในการประมาณบรรทัดเดียวกันและจำเป็นต้องมี 4 อย่างน้อยประมาณเพื่อรันการทดสอบสมมติฐานบนพารามิเตอร์ที่ประมาณไว้
Matthew Drury

3
หน้าที่เชื่อมโยงไปยังบล็อกของ A. Gelman เกี่ยวกับอะไรคือสมมติฐานสำคัญของการถดถอยเชิงเส้น? .
usεr11852พูดว่า Reinstate Monic

2
โปรดให้แหล่งที่มาสำหรับแผนภาพของคุณหากไม่ใช่งานของคุณ
Nick Cox

คำตอบ:


44

1. การกระจายตัวของสารตกค้างตามปกติ :

เงื่อนไขปกติจะเริ่มเล่นเมื่อคุณพยายามรับช่วงความมั่นใจและ / หรือค่า p

ไม่ได้เป็นเงื่อนไข Gauss มาร์คอฟε|XN(0,σ2In)


ป้อนคำอธิบายรูปภาพที่นี่

X=x

ถ้าเรารันการวินิจฉัย R แปลงข้อมูล "ประชากร" จำลองเราจะได้รับ ...

ป้อนคำอธิบายรูปภาพที่นี่

X.

พล็อตทั่วไปจะเป็น:

ป้อนคำอธิบายรูปภาพที่นี่


แนวคิดการแนะนำตัวลงทะเบียนหลายตัวหรือตัวแปรอธิบายไม่ได้เปลี่ยนความคิด ฉันพบว่าบทเรียนแบบฝึกหัดบนมือswirl()มีประโยชน์อย่างมากในการทำความเข้าใจว่าการถดถอยหลายครั้งเป็นกระบวนการของการถดถอยตัวแปรตามซึ่งกันและกันต่อการดำเนินการต่อการเปลี่ยนแปลงที่เหลือไม่ได้อธิบายในรูปแบบ; หรือมากกว่านั้นง่ายๆคือรูปแบบเวกเตอร์ของการถดถอยเชิงเส้นอย่างง่าย :

เทคนิคทั่วไปคือการเลือกหนึ่ง regressor และแทนที่ตัวแปรอื่น ๆ ทั้งหมดโดยส่วนที่เหลือของการถดถอยของพวกเขากับหนึ่ง


2. ความแปรปรวนของส่วนที่เหลือเกือบคงที่ (Homoskedasticity) :

E[εi2|X]=σ2

ปัญหาเกี่ยวกับการละเมิดเงื่อนไขนี้คือ:

Heteroskedasticity มีผลกระทบร้ายแรงสำหรับตัวประมาณ OLS แม้ว่าตัวประมาณ OLS จะไม่เอนเอียง แต่ SE ที่ประมาณไว้นั้นผิด ด้วยเหตุนี้จึงไม่สามารถเชื่อมั่นในการทดสอบช่วงเวลาและทดสอบสมมติฐานได้ นอกจากนี้ตัวประมาณ OLS จะไม่เป็นสีน้ำเงินอีกต่อไป


ป้อนคำอธิบายรูปภาพที่นี่

ในพล็อตนี้ความแปรปรวนจะเพิ่มขึ้นตามค่าของ regressor (ตัวแปรอธิบาย) ซึ่งตรงข้ามกับค่าคงที่ ในกรณีนี้ส่วนที่เหลือจะกระจายตามปกติ แต่ความแปรปรวนของการแจกแจงแบบปกตินี้จะเปลี่ยน (เพิ่มขึ้น) ด้วยตัวแปรอธิบาย

โปรดสังเกตว่าบรรทัดการถดถอย "จริง" (ประชากร) จะไม่เปลี่ยนแปลงตามส่วนที่เกี่ยวกับเส้นการถดถอยของประชากรภายใต้ homoskedasticity ในพล็อตแรก (สีน้ำเงินเข้มทึบ) แต่เป็นที่ชัดเจนโดยสังหรณ์ว่าการประมาณการจะมีความไม่แน่นอนมากขึ้น

ชุดการวินิจฉัยบนชุดข้อมูลคือ ...

ป้อนคำอธิบายรูปภาพที่นี่

ซึ่งสอดคล้องกับการกระจาย "หนักหาง"ซึ่งทำให้รู้สึกคือเราต้องกล้องโทรทรรศน์ทั้งหมด "แบบเคียงข้างกัน" แนวตั้งแบบเกาส์แปลงเป็นหนึ่งเดียวซึ่งจะรักษารูปร่างระฆัง แต่มีหางยาวมาก


@Glen_b "... ความครอบคลุมที่สมบูรณ์ของความแตกต่างระหว่างทั้งสองจะพิจารณาถึง homoskedastic-but-not-normal"

ป้อนคำอธิบายรูปภาพที่นี่

ส่วนที่เหลือจะเบ้สูงและความแปรปรวนเพิ่มขึ้นตามค่าของตัวแปรอธิบาย

นี่จะเป็นแผนการวินิจฉัย ...

ป้อนคำอธิบายรูปภาพที่นี่

ตรงกับการทำเครื่องหมายเบ้ด้านขวา

หากต้องการปิดลูปเราจะเห็นการเปลี่ยนแปลงแบบเนสในโมเดลแบบ homoskedastic พร้อมการกระจายข้อผิดพลาดแบบไม่ใช่เกาส์:

ป้อนคำอธิบายรูปภาพที่นี่

พร้อมแปลงวินิจฉัยเป็น ...

ป้อนคำอธิบายรูปภาพที่นี่


2
ขอบคุณมาก. ฉันรู้สึกว่าจำเป็นต้องเชื่อมโยงการลดทอนจำนวนประชากรทั้งหมดที่ใช้เป็นเครื่องมือสร้างภาพข้อมูล ฉันอาจโพสต์รหัส แต่ฉันลังเลเพราะมีความคิดสร้างสรรค์คณิตศาสตร์ :-)
Antoni Parellada

3
ภาพประกอบของความแตกต่างระหว่างข้อผิดพลาดปกติและข้อผิดพลาด homoscedastic โดยการแสดงพล็อตที่น่าพอใจทั้งสองแล้วแสดงปกติ - แต่ - ไม่ - homoskedastic เป็นเลิศ ฉันเดาว่าการครอบคลุมที่สมบูรณ์ของความแตกต่างระหว่างทั้งสองจะพิจารณา homoskedastic - แต่ - ไม่ใช่ - ปกติ [ฉันไม่แนะนำให้คุณเพิ่มภาพประกอบดังกล่าว แต่มันเป็นแขนที่มีประโยชน์สำหรับผู้คนในใจเมื่อพิจารณาสมมติฐาน]
Glen_b

7

มันไม่ใช่ความผิดของ OP แต่ฉันเริ่มเบื่อที่จะอ่านข้อมูลผิด ๆ แบบนี้

ฉันอ่านว่าสิ่งเหล่านี้เป็นเงื่อนไขในการใช้ตัวแบบการถดถอยหลายแบบ:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

"หลาย ๆ รูปแบบการถดถอย" เป็นแค่ป้ายประกาศว่าสามารถแสดงตัวแปรหนึ่งเป็นฟังก์ชั่นของตัวแปรอื่น ๆ

ทั้งข้อผิดพลาดที่แท้จริงและส่วนที่เหลือของตัวแบบนั้นไม่จำเป็นต้องมีอะไรเป็นพิเศษ - หากส่วนที่เหลือดูเป็นปกตินี่เป็นสิ่งที่ดีสำหรับการอนุมานทางสถิติในภายหลัง

ความแปรปรวน (ความแปรปรวน) ของคำผิดพลาดนั้นไม่จำเป็นต้องเกือบคงที่ - ถ้าไม่ใช่เรามีแบบจำลองที่มี heteroskedasticity ซึ่งทุกวันนี้จัดการได้ง่าย

ส่วนที่เหลือไม่ได้เป็นอิสระในกรณีใด ๆ เนื่องจากแต่ละฟังก์ชั่นของตัวอย่างทั้งหมด เงื่อนไขข้อผิดพลาดจริงไม่จำเป็นต้องเป็นอิสระถ้าพวกเขาไม่ได้เรามีรูปแบบที่มีอัตซึ่งแม้จะยากกว่า heteroskedasticity สามารถจัดการกับการขึ้นไปการศึกษาระดับปริญญา

ตัวแปรแต่ละตัวไม่จำเป็นต้องเกี่ยวข้องกับผลลัพธ์เป็นเส้นตรง ในความเป็นจริงความแตกต่างระหว่าง "เชิงเส้น" และ "ไม่เชิงเส้น" การถดถอยไม่มีอะไรเกี่ยวข้องกับความสัมพันธ์ระหว่างตัวแปร - แต่เป็นอย่างไรสัมประสิทธิ์ที่ไม่รู้จักเข้ามาเกี่ยวข้องอย่างไร

สิ่งที่สามารถพูดได้ก็คือว่าถ้าการระงับสามครั้งแรกและครั้งที่สี่ถูกระบุไว้อย่างถูกต้องแล้วเราจะได้รับ "แบบจำลองการถดถอยเชิงเส้นปกติแบบคลาสสิค" ซึ่งเป็นเพียงรูปแบบหนึ่ง


3
ชี้แจงไมเนอร์ที่อาจช่วยให้ผู้อ่านบางคน: ด้วยรูปแบบเชิงเส้นถดถอยทำนายเชิงเส้น (และด้วยเหตุนี้ความคาดหวังของการตอบสนอง) เป็นจำเป็นต้องเป็นเส้นตรงในคอลัมน์ของเป็นอยู่ใน\สิ่งที่พลาดบ่อยครั้งจากการรักษาขั้นพื้นฐานคือคอลัมน์ของไม่จำเป็นต้องเป็นเส้นตรงในการรวบรวมตัวแปรอิสระดั้งเดิมในชุดข้อมูล X β XXβXβX
Glen_b -Reinstate Monica

2
และคำถามนั้นก็หายไปจากข้อสันนิษฐานพื้นฐานที่ว่าความคาดหวังตามเงื่อนไขของข้อผิดพลาดนั้นเป็นศูนย์!
Matthew Gunn

1
@MatthewGunn เอาล่ะ ... นี่เป็นการอภิปรายที่ใหญ่มากเกี่ยวกับสิ่งที่เรากำลังทำกับโมเดลนี้: ถ้าเราใช้มุมมอง "deterministic / engineering" เราจำเป็นต้องมีสมมติฐานนี้เพื่อให้แน่ใจว่า หากเราต้องการที่จะประเมินฟังก์ชั่นการคาดการณ์แบบมีเงื่อนไขด้วยความเคารพต่อรีจีสเตอร์ที่เฉพาะเจาะจงแล้วการประมวลผลจะได้รับความพึงพอใจโดยอัตโนมัติ
Alecos Papadopoulos

1
@AlcosPapadopoulos ใช่แล้วในความหมายสี่เหลี่ยมธรรมดาที่น้อยที่สุดจะให้ค่าประมาณของบางสิ่ง! แต่มันอาจไม่ใช่สิ่งที่คุณต้องการ ถ้า OP ต้องการเพียงแค่ฟังก์ชั่นการคาดหวังเชิงเส้นตรงตามเงื่อนไขที่เกี่ยวข้องกับ regressors เฉพาะฉันยอมรับเงื่อนไขนั้นโดยอัตโนมัติ แต่ถ้า OP พยายามที่จะประมาณค่าพารามิเตอร์บางอย่างการหาเหตุผลว่าสภาพ orthogonality นั้นสำคัญมาก!
Matthew Gunn

@ MatthunGunn แน่นอนว่าเป็นเช่นนี้อย่างแน่นอน
Alecos Papadopoulos

3

Antoni Parellada มีคำตอบที่สมบูรณ์แบบด้วยภาพประกอบกราฟิกที่ดี

ฉันต้องการเพิ่มความคิดเห็นหนึ่งรายการเพื่อสรุปความแตกต่างระหว่างสองข้อความ

  1. ส่วนที่เหลือของโมเดลเกือบปกติ

  2. ความแปรปรวนของส่วนที่เหลือเกือบคงที่

  • 1 คำสั่งให้"รูปร่าง"ของที่เหลือคือ"เส้นโค้งรูประฆัง"
  • คำแถลง 2 ปรับการแพร่กระจายของ"รูปร่าง" (เป็นค่าคงที่) ในพล็อตของ Antoni Parellada 3 มีเส้นโค้งรูประฆัง 3 แบบ แต่มีการกระจายที่แตกต่างกัน

1

ไม่มีสมมติฐานการถดถอยชุดเดียวที่ไม่ซ้ำกัน แต่มีหลายรูปแบบออกมี ชุดของสมมติฐานเหล่านี้บางชุดมีความเข้มงวดเช่นแคบกว่าชุดอื่น ๆ นอกจากนี้ในกรณีส่วนใหญ่คุณไม่ต้องการและในหลาย ๆ กรณีไม่สามารถสรุปได้ว่าการแจกแจงเป็นเรื่องปกติ

สมมติฐานที่คุณยกมานั้นเข้มงวดกว่ามากที่สุด แต่ก็มีการกำหนดในภาษาที่ไม่จำเป็นโดยไม่จำเป็น ตัวอย่างเช่นสิ่งที่อยู่ตรงเกือบ ? นอกจากนี้ไม่ใช่ส่วนที่เหลือซึ่งเรากำหนดสมมติฐานมันเป็นข้อผิดพลาดข้อผิดพลาดส่วนที่เหลือเป็นค่าประมาณข้อผิดพลาดซึ่งไม่สามารถสังเกตได้ สิ่งนี้บอกฉันว่าคุณกำลังอ้างถึงจากแหล่งที่น่าสงสาร โยนมันออกไป.

คำตอบสั้น ๆ สำหรับคำถามของคุณคือถ้าคุณพิจารณาการแจกจ่ายใด ๆ เช่นการแจกแจงของนักเรียน t สำหรับข้อผิดพลาดของคุณ (ฉันจะใช้คำที่ถูกต้องในคำตอบของฉัน) จากนั้นคุณจะเห็นว่าข้อผิดพลาดนั้นมี โดยไม่ต้องมาจากการแจกแจงแบบปกติและการมีความแปรปรวน "เกือบคงที่" นั้นไม่จำเป็นต้องมีการแจกแจงแบบปกติ กล่าวอีกนัยหนึ่งไม่คุณไม่สามารถกำหนดสมมติฐานหนึ่งจากอีกสมมติฐานหนึ่งโดยไม่มีข้อกำหนดเพิ่มเติม

ข้อกำหนดดังกล่าวอาจมาจากการกำหนดรูปแบบการถดถอยที่เป็นที่นิยมดังนี้:

yi=Xiβ+εiεiN(0,σ2)
  1. N(.)
  2. σεi
  3. NX
  4. y=Xβ

ดังนั้นเมื่อเรารวมสมมติฐานทั้งหมดเข้าด้วยกันด้วยวิธีนี้ในหนึ่งหรือสองสมการมันอาจดูเหมือนว่าพวกมันทั้งหมดขึ้นอยู่กับกันและกันซึ่งไม่เป็นความจริง ฉันจะแสดงต่อไปนี้

ตัวอย่างที่ 1

yi=Xiβ+εiεitν
ν

ตัวอย่างที่ 2

yi=Xiβ+εiεiN(0,σ2i)
i

1

ฉันพยายามเพิ่มมิติใหม่ให้กับการสนทนาและทำให้เป็นเรื่องทั่วไปมากขึ้น โปรดขอโทษด้วยถ้าพื้นฐานเกินไป

แบบจำลองการถดถอยเป็นวิธีที่เป็นทางการในการแสดงสองส่วนผสมที่สำคัญของความสัมพันธ์ทางสถิติ:

  1. YX
  2. การกระจายของจุดรอบ ๆ เส้นโค้งของความสัมพันธ์ทางสถิติ

Y

โดยอ้างว่า:

  1. YX

  2. X

Y

YX

YXYX

ที่มา: แบบจำลองเชิงเส้นตรงเชิงสถิติ, KNNL

YX

Yi=β0 +β1Xi+ϵ

YiXi

β0β1 เป็นพารามิเตอร์

ϵN(O,σ2)

i

E(Y|X)β0β1σ2β0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

1 และ 2 แตกต่างกันอย่างไร

มาถึงคำถาม

ข้อสมมติฐานแรกและข้อที่สองตามที่ระบุไว้โดยคุณคือสองส่วนของข้อสมมติเดียวกันของภาวะปกติโดยมีค่าเฉลี่ยศูนย์และความแปรปรวนคงที่ ฉันคิดว่าควรตั้งคำถามว่าอะไรคือความหมายของสมมติฐานสองข้อสำหรับแบบจำลองการถดถอยข้อผิดพลาดปกติมากกว่าความแตกต่างระหว่างสมมติฐานสองข้อ ฉันบอกว่าเพราะมันดูเหมือนการเปรียบเทียบแอปเปิ้ลกับส้มเพราะคุณกำลังพยายามค้นหาความแตกต่างระหว่างสมมติฐานเกี่ยวกับการกระจายของจุดกระจายและสมมติฐานเหนือความแปรปรวน ความแปรปรวนเป็นสมบัติของการแจกแจง ดังนั้นฉันจะพยายามตอบคำถามที่เกี่ยวข้องมากขึ้นเกี่ยวกับผลกระทบของสมมติฐานทั้งสอง

ภายใต้สมมติฐานของภาวะปกติผู้ประเมินความน่าจะเป็นสูงสุด (MLEs) จะเหมือนกับตัวประมาณกำลังสองน้อยที่สุดและ MLEs จะสนุกกับคุณสมบัติของการเป็นUMVUEซึ่งหมายความว่าพวกเขามีความแปรปรวนต่ำสุดในตัวประมาณทั้งหมด

β0β1t


1
นี่เป็นบัญชีที่ยอดเยี่ยมของการถดถอย แต่มันจะตอบคำถามเฉพาะในหัวข้อนี้ได้อย่างไร
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.