อะไรคือสมมติฐานปกติสำหรับการถดถอยเชิงเส้น?
พวกเขารวมถึง:
- ความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระและตัวแปรตาม
- ข้อผิดพลาดอิสระ
- การแจกแจงปกติของข้อผิดพลาด
- homoscedasticity
มีคนอื่นอีกไหม?
อะไรคือสมมติฐานปกติสำหรับการถดถอยเชิงเส้น?
พวกเขารวมถึง:
มีคนอื่นอีกไหม?
คำตอบ:
คำตอบนั้นขึ้นอยู่กับว่าคุณให้คำจำกัดความที่ครบถ้วนและปกติอย่างไร สมมติว่าเราเขียนโมเดลการถดถอยเชิงเส้นด้วยวิธีดังต่อไปนี้:
โดยที่เป็นเวกเตอร์ของตัวแปรทำนายเป็นพารามิเตอร์ที่น่าสนใจคือตัวแปรตอบสนองและเป็นสิ่งรบกวน หนึ่งในประมาณการที่เป็นไปได้ของคือการประมาณกำลังสองน้อยที่สุด:
β = argmin β Σ ( Y ฉัน - xฉัน β ) 2 = ( Σ xฉันx ' ฉัน ) - 1 Σ xฉันYฉัน
ตอนนี้เกือบทุกตำราเรียนจัดการกับสมมติฐานเมื่อประมาณการนี้มีคุณสมบัติที่ต้องการเช่นความเป็นกลางความสอดคล้องประสิทธิภาพประสิทธิภาพคุณสมบัติการกระจายบางอย่าง ฯลฯ
คุณสมบัติเหล่านี้แต่ละอย่างต้องการสมมติฐานบางประการซึ่งไม่เหมือนกัน ดังนั้นคำถามที่ดีกว่าคือการถามว่าจำเป็นต้องใช้สมมติฐานใดสำหรับคุณสมบัติที่ต้องการของการประเมิน LS
คุณสมบัติที่ฉันพูดถึงข้างต้นต้องการตัวแบบความน่าจะเป็นสำหรับการถดถอย และที่นี่เรามีสถานการณ์ที่มีการใช้โมเดลที่แตกต่างกันในฟิลด์ที่ใช้ต่างกัน
กรณีง่าย ๆ คือให้ถือว่าเป็นตัวแปรสุ่มอิสระโดยที่นั้นไม่ใช่การสุ่ม ฉันไม่ชอบคำปกติ แต่เราสามารถพูดได้ว่านี่เป็นกรณีปกติในสาขาที่นำไปใช้มากที่สุด (เท่าที่ฉันรู้)
นี่คือรายการของคุณสมบัติที่ต้องการของการประมาณทางสถิติ:
การดำรงอยู่
คุณสมบัติการดำรงอยู่อาจดูแปลก แต่มันสำคัญมาก ในคำจำกัดความของเรากลับเมทริกซ์
มันไม่ได้รับประกันว่าผกผันของเมทริกซ์นี้มีอยู่สำหรับสายพันธุ์ที่เป็นไปได้ทั้งหมดของ\ดังนั้นเราจึงได้สมมติฐานแรกของเราทันที:
เมทริกซ์ควรอยู่ในระดับเต็มเช่นย้อนกลับได้
Unbiasedness
เรามี
ถ้า
เราอาจนับเป็นข้อสันนิษฐานที่สอง แต่เราอาจระบุไว้ทันทีเนื่องจากนี่เป็นหนึ่งในวิธีธรรมชาติในการกำหนดความสัมพันธ์เชิงเส้น
โปรดทราบว่าเพื่อให้ได้มาซึ่งความเป็นกลางเราต้องการเพียงแค่สำหรับทั้งหมดและเป็นค่าคงที่ ไม่จำเป็นต้องมีคุณสมบัติความเป็นอิสระ
ความมั่นคง
สำหรับการรับสมมติฐานเพื่อความมั่นคงที่เราจำเป็นต้องระบุอย่างชัดเจนมากขึ้นสิ่งที่เราหมายถึง\สำหรับลำดับของตัวแปรสุ่มเรามีโหมดการลู่ที่แตกต่างกัน: ในความเป็นไปได้เกือบจะแน่นอนในการแจกแจงและการรับรู้ช่วงเวลา th สมมติว่าเราต้องการได้ความเป็นไปได้ของการลู่เข้า เราสามารถใช้กฎจำนวนมากหรือใช้ความไม่เท่าเทียมกันหลายตัวแปร Chebyshev โดยตรง (ใช้ข้อเท็จจริงที่ว่า ):
(ตัวแปรของความไม่เท่าเทียมกันนี้มาโดยตรงจากการใช้ความไม่เท่าเทียมของมาร์คอฟกับโดยสังเกตว่า .)
ตั้งแต่การบรรจบกันในความน่าจะหมายความว่าระยะซ้ายมือจะต้องหายไปสำหรับการใด ๆเป็นเราต้องว่าเป็นnนี่คือเหตุผลที่สมบูรณ์แบบเนื่องจากมีข้อมูลความแม่นยำที่เราคาดการณ์ควรเพิ่มขึ้น
เรามี
ความเป็นอิสระทำให้มั่นใจได้ว่าดังนั้นการแสดงออกที่ง่ายขึ้นเพื่อ
ทีนี้สมมติว่าแล้ว
ตอนนี้ถ้าเราต้องการให้ถูก จำกัด สำหรับแต่ละเราจะได้รับ
ดังนั้นเพื่อให้ได้ความสอดคล้องเราจึงสันนิษฐานว่าไม่มีความสัมพันธ์อัตโนมัติ ( ) ความแปรปรวนเป็นค่าคงที่และไม่เติบโตมากเกินไป ข้อสมมติฐานแรกมีความพึงพอใจถ้ามาจากกลุ่มตัวอย่างอิสระ
อย่างมีประสิทธิภาพ
ผลคลาสสิกเป็นทฤษฎีบท Gauss-มาร์คอฟ เงื่อนไขสำหรับมันเป็นสองเงื่อนไขแรกสำหรับความสอดคล้องและเงื่อนไขสำหรับความเป็นกลาง
คุณสมบัติการกระจาย
หากเป็นเรื่องปกติเราจะได้รับเป็นเรื่องปกติทันทีเนื่องจากเป็นการรวมกันเชิงเส้นของตัวแปรสุ่มแบบปกติ ถ้าเราสันนิษฐานก่อนหน้าสมมติฐานความเป็นอิสระ uncorrelatedness และความแปรปรวนคงที่เราได้
ที่ 2
หากไม่ปกติ แต่เป็นอิสระเราสามารถได้รับการกระจายโดยประมาณของขอบคุณทฤษฎีบทขีด จำกัด กลาง สำหรับวันนี้เราต้องคิดว่า
สำหรับบางเมทริกซ์ ความแปรปรวนแบบคงที่สำหรับมาตรฐานเชิงเส้นกำกับนั้นไม่จำเป็นถ้าเราสมมติว่า
βลิมn →การ∞ 1
โปรดทราบว่ามีความแปรปรวนคงที่ของเรามีที่2 ทฤษฎีบทขีด จำกัด กลางจากนั้นให้ผลลัพธ์ต่อไปนี้แก่เรา:
ดังนั้นจากนี้เราจะเห็นว่าความเป็นอิสระและความแปรปรวนคงที่สำหรับและสมมติฐานบางอย่างสำหรับทำให้เรามีจำนวนมากของคุณสมบัติที่มีประโยชน์สำหรับการประมาณการ LS \
ประเด็นก็คือสมมติฐานเหล่านี้สามารถผ่อนคลายได้ ตัวอย่างเช่นเราต้องการให้ไม่ใช่ตัวแปรสุ่ม สมมติฐานนี้เป็นไปไม่ได้ในการใช้งานทางเศรษฐมิติ ถ้าเราปล่อยจะสุ่มเราจะได้รับผลที่คล้ายกันถ้าใช้ความคาดหวังที่มีเงื่อนไขและคำนึงถึงแบบแผนของ\สมมติฐานที่เป็นอิสระก็สามารถผ่อนคลายได้เช่นกัน เราแสดงให้เห็นแล้วว่าบางครั้งก็ไม่จำเป็นต้องมีความสัมพันธ์เท่านั้น แม้สิ่งนี้จะผ่อนคลายมากขึ้นและยังคงเป็นไปได้ที่จะแสดงให้เห็นว่าการประเมิน LS จะเป็นไปอย่างสม่ำเสมอและไม่แสดงอาการปกติ ดูตัวอย่างหนังสือของไวท์เพื่อดูรายละเอียดเพิ่มเติม
มีคำตอบที่ดีจำนวนมากที่นี่ มันเกิดขึ้นกับฉันว่ามีข้อสันนิษฐานข้อหนึ่งที่ไม่ได้ระบุไว้ (อย่างน้อยก็ไม่ชัดเจน) แบบจำลองการถดถอยสมมติว่า (ค่าของตัวแปรอธิบาย / ตัวทำนายของคุณ) ได้รับการแก้ไขและรู้จักและความไม่แน่นอนทั้งหมดในสถานการณ์นั้นมีอยู่ภายในตัวแปรนอกจากนี้ความไม่แน่นอนนี้จะถือว่าเป็นข้อผิดพลาดในการสุ่มตัวอย่างเท่านั้น
นี่คือวิธีการคิดเกี่ยวกับเรื่องนี้คือ: ถ้าคุณกำลังสร้างรูปแบบการอธิบาย (การสร้างแบบจำลองผลการทดลอง) คุณรู้ว่าสิ่งที่ระดับของตัวแปรอิสระที่มีเพราะคุณจัดการ / บริหารงานพวกเขา ยิ่งกว่านั้นคุณตัดสินใจว่าระดับเหล่านั้นจะเป็นอย่างไรก่อนที่คุณจะเริ่มรวบรวมข้อมูล ดังนั้นคุณจึงกำหนดแนวคิดของความไม่แน่นอนทั้งหมดในความสัมพันธ์ดังที่มีอยู่ภายในการตอบสนอง ในทางตรงกันข้ามถ้าคุณกำลังสร้างแบบจำลองการทำนายมันเป็นความจริงที่ว่าสถานการณ์นั้นแตกต่างกัน แต่คุณยังคงปฏิบัติต่อผู้ทำนายราวกับว่าพวกเขาได้รับการแก้ไขและเป็นที่รู้จักเพราะในอนาคตเมื่อคุณใช้แบบจำลองเพื่อทำนาย เกี่ยวกับค่าที่น่าจะเป็นของคุณจะมีเวกเตอร์และแบบจำลองได้รับการออกแบบมาเพื่อรักษาค่าเหล่านั้นราวกับว่าถูกต้อง นั่นคือคุณจะได้รับการตั้งครรภ์ของความไม่แน่นอนที่เป็นค่าที่ไม่รู้จักY
สมมติฐานเหล่านี้สามารถเห็นได้ในสมการสำหรับแบบจำลองการถดถอยต้นแบบ: แบบจำลองที่มีความไม่แน่นอน (อาจเกิดจากข้อผิดพลาดในการวัด) ในและอาจมีกระบวนการสร้างข้อมูลเดียวกัน คาดว่าจะมีลักษณะดังนี้: ที่แสดงถึงข้อผิดพลาดในการวัดแบบสุ่ม (สถานการณ์เช่นหลังได้นำไปสู่การทำงานกับข้อผิดพลาดในตัวแปรแบบจำลองผลเบื้องต้นคือถ้ามีข้อผิดพลาดในการวัดใน , naive
หนึ่งผลการปฏิบัติของความไม่สมดุลที่แท้จริงในสมมติฐานทั่วไปคือว่าถอยบนจะแตกต่างจากถอยในปี(ดูคำตอบของฉันที่นี่: อะไรคือความแตกต่างระหว่างการทำถดถอยเชิงเส้นบน y กับ x กับ x กับ yสำหรับการอภิปรายรายละเอียดเพิ่มเติมของข้อเท็จจริงนี้)
สมมติฐานของโมเดลการถดถอยเชิงเส้นแบบคลาสสิกประกอบด้วย:
แม้ว่าคำตอบที่นี่จะให้ภาพรวมที่ดีของสมมติฐาน OLS คลาสสิก แต่คุณสามารถหาคำอธิบายที่ครอบคลุมมากขึ้นเกี่ยวกับสมมติฐานของโมเดลการถดถอยเชิงเส้นแบบดั้งเดิมที่นี่:
https://economictheoryblog.com/2015/04/01/ols_assumptions/
นอกจากนี้บทความอธิบายถึงผลที่ตามมาในกรณีที่หนึ่งละเมิดสมมติฐานบางอย่าง
สิ่งที่ช่วยให้?!
คำตอบคือชุดของสมมติฐานที่แตกต่างกันสามารถนำมาใช้เพื่อแสดงให้เห็นถึงการใช้การประมาณกำลังสองน้อยที่สุด (OLS) OLS เป็นเครื่องมือเหมือนค้อน: คุณสามารถใช้ค้อนบนตะปู แต่คุณสามารถใช้บนหมุดตอกเพื่อแยกน้ำแข็ง ฯลฯ ...
สมมติฐานสองประเภทกว้าง ๆ คือสมมติฐานที่ใช้กับกลุ่มตัวอย่างขนาดเล็กและกลุ่มที่ต้องพึ่งพากลุ่มตัวอย่างขนาดใหญ่เพื่อให้สามารถใช้ทฤษฎีบทขีด จำกัด กลางได้
สมมติฐานตัวอย่างเล็กน้อยตามที่กล่าวไว้ในฮายาชิ (2000) คือ:
ภายใต้ (1) - (4) ทฤษฎีบทเกาส์ - มาร์กอฟใช้และตัวประมาณกำลังสองน้อยที่สุดธรรมดาคือตัวประมาณแบบไม่เอนเอียงเชิงเส้นที่ดีที่สุด
การสมมติข้อผิดพลาดตามปกติเพิ่มเติมช่วยให้สามารถทดสอบสมมติฐานได้ หากเงื่อนไขข้อผิดพลาดเป็นเงื่อนไขปกติการแจกแจงของตัวประมาณค่า OLS ก็เป็นเงื่อนไขปกติเช่นกัน
อีกประเด็นที่น่าสังเกตก็คือด้วยค่านิยมปกติตัวประมาณค่า OLS ก็เป็นตัวประมาณค่าความน่าจะเป็นสูงสุดด้วย
สมมติฐานเหล่านี้สามารถแก้ไข / ผ่อนคลายได้ถ้าเรามีตัวอย่างขนาดใหญ่เพียงพอเพื่อให้เราสามารถพึ่งพากฎหมายจำนวนมาก (สำหรับความสอดคล้องของตัวประมาณค่า OLS) และทฤษฎีขีด จำกัด กลาง (เพื่อให้การกระจายตัวตัวอย่างของตัวประมาณค่า OLS มาบรรจบกัน การกระจายตัวแบบปกติและเราสามารถทำการทดสอบสมมติฐาน, พูดคุยเกี่ยวกับค่า p ฯลฯ .. )
ฮายาชิเป็นคนเศรษฐศาสตร์มหภาคและสมมติฐานตัวอย่างขนาดใหญ่ของเขาถูกกำหนดโดยคำนึงถึงบริบทของอนุกรมเวลา:
คุณอาจพบกับเวอร์ชันที่แข็งแกร่งกว่าของสมมติฐานเหล่านี้ตัวอย่างเช่นข้อกำหนดข้อผิดพลาดนั้นมีความเป็นอิสระ
สมมติฐานตัวอย่างขนาดใหญ่ที่เหมาะสมนำคุณไปสู่การกระจายตัวตัวอย่างของเครื่องมือประมาณค่า OLS ที่เป็นอาการปกติ
Hayashi, Fumio, 2000, เศรษฐมิติ
ทุกอย่างเกี่ยวกับสิ่งที่คุณต้องการทำกับโมเดลของคุณ ลองนึกภาพว่าข้อผิดพลาดของคุณเบ้บวก / ไม่ปกติ หากคุณต้องการทำนายช่วงเวลาคุณสามารถทำได้ดีกว่าการใช้การแจกแจงแบบ t หากความแปรปรวนของคุณเล็กลงตามค่าที่คาดการณ์ไว้น้อยกว่าอีกครั้งคุณจะทำช่วงเวลาการทำนายที่ใหญ่เกินไป
เป็นการดีกว่าที่จะเข้าใจว่าทำไมจึงมีสมมติฐาน
ไดอะแกรมต่อไปนี้แสดงให้เห็นว่าจำเป็นต้องใช้สมมติฐานใดเพื่อให้ได้ผลลัพธ์ที่เกี่ยวข้องในสถานการณ์ที่แน่นอนและไม่แน่นอน
ฉันคิดว่ามันเป็นสิ่งสำคัญที่จะคิดเกี่ยวกับไม่เพียง แต่สมมติฐานคืออะไร แต่ความหมายของสมมติฐานเหล่านั้นคืออะไร ตัวอย่างเช่นหากคุณสนใจที่จะมีค่าสัมประสิทธิ์ที่เป็นกลางคุณก็ไม่จำเป็นต้องมีความรักร่วมเพศ
ต่อไปนี้เป็นข้อสมมติฐานของการวิเคราะห์การถดถอยเชิงเส้น
สเปคที่ถูกต้อง ระบุรูปแบบการทำงานเชิงเส้นอย่างถูกต้อง
exogeneity เข้มงวด ข้อผิดพลาดในการถดถอยควรมีค่าเฉลี่ยเป็นศูนย์
ไม่มีพหุ regressors ใน X จะต้องเป็นอิสระเป็นเส้นตรง
Homoscedasticityซึ่งหมายความว่าคำผิดพลาดมีความแปรปรวนเดียวกันในแต่ละการสังเกต
ไม่มีความสัมพันธ์อัตโนมัติ : ข้อผิดพลาดจะไม่สัมพันธ์กันระหว่างการสังเกต
ภาวะปกติ บางครั้งมีการสันนิษฐานเพิ่มเติมว่าข้อผิดพลาดนั้นมีเงื่อนไขการกระจายแบบปกติบน regressors
การสังเกต Iid :เป็นอิสระจากและมีการกระจายแบบเดียวกับ,สำหรับทั้งหมด( x j , y j ) i ≠ j
สำหรับข้อมูลเพิ่มเติมเยี่ยมชมหน้านี้
ไม่มีสิ่งใดเป็นรายการของสมมติฐานเดียวจะมีอย่างน้อย 2: หนึ่งสำหรับการแก้ไขและหนึ่งสำหรับเมทริกซ์การออกแบบแบบสุ่ม นอกจากนี้คุณอาจต้องการดูข้อสันนิษฐานสำหรับการถดถอยอนุกรมเวลา (ดูหน้า 13)
กรณีที่การออกแบบเมทริกซ์จะคงอาจจะเป็นหนึ่งที่พบมากที่สุดและการตั้งสมมติฐานของมันมักจะแสดงเป็นทฤษฎีบท Gauss-มาร์คอฟ การออกแบบแบบตายตัวหมายความว่าคุณสามารถควบคุมผู้ลงทะเบียนได้อย่างแท้จริง ตัวอย่างเช่นคุณดำเนินการทดลองและสามารถตั้งค่าพารามิเตอร์เช่นอุณหภูมิความดัน ฯลฯ ดูเพิ่มเติม p.13 ที่นี่
น่าเสียดายที่ในสังคมศาสตร์เช่นเศรษฐศาสตร์คุณแทบจะไม่สามารถควบคุมพารามิเตอร์ของการทดสอบได้ โดยปกติคุณจะสังเกตเห็นสิ่งที่เกิดขึ้นในทางเศรษฐกิจบันทึกตัวชี้วัดสภาพแวดล้อมแล้วถอยกลับไป ปรากฎว่ามันเป็นสถานการณ์ที่แตกต่างและยากกว่าเรียกว่าการออกแบบแบบสุ่ม ในกรณีนี้ทฤษฎีบทเกาส์ - มาร์คอฟถูกแก้ไขด้วยดูที่ p.12 ที่นี่ด้วย คุณสามารถดูได้ว่าเงื่อนไขจะแสดงในแง่ของความน่าจะเป็นตามเงื่อนไขซึ่งไม่ใช่การเปลี่ยนแปลงที่ไม่น่ากลัว
ในเศรษฐมิติสมมติฐานมีชื่อ:
สังเกตว่าฉันไม่เคยพูดถึงเรื่องปกติ ไม่ใช่ข้อสมมติฐานมาตรฐาน มันมักจะใช้ในหลักสูตรการถดถอยแบบอินโทรเพราะมันทำให้บางรุ่นง่ายขึ้น แต่มันไม่จำเป็นสำหรับการถดถอยในการทำงานและมีคุณสมบัติที่ดี
สมมติฐานของความเป็นเชิงเส้นคือแบบจำลองนั้นเป็นแบบเส้นตรงในพารามิเตอร์ มันก็ดีที่จะมีตัวแบบการถดถอยที่มีเอฟเฟกต์กำลังสองหรือสูงกว่าตราบใดที่ฟังก์ชันกำลังของตัวแปรอิสระเป็นส่วนหนึ่งของตัวแบบเชิงเส้น หากแบบจำลองไม่มีเงื่อนไขการสั่งซื้อที่สูงกว่าเมื่อมันควรจะเห็นได้ชัดว่าการขาดความพอดีจะปรากฏในเนื้อเรื่องของส่วนที่เหลือ อย่างไรก็ตามตัวแบบการถดถอยมาตรฐานไม่ได้รวมตัวแบบที่ตัวแปรอิสระยกกำลังของพารามิเตอร์ (แม้ว่าจะมีวิธีการอื่นที่สามารถนำมาใช้ในการประเมินรูปแบบดังกล่าว) โมเดลดังกล่าวมีพารามิเตอร์ที่ไม่ใช่เชิงเส้น
สัมประสิทธิ์การถดถอยกำลังสองน้อยที่สุดให้วิธีสรุปแนวโน้มคำสั่งแรกในข้อมูลทุกประเภท @mpiktas คำตอบคือการรักษาอย่างละเอียดของเงื่อนไขภายใต้สี่เหลี่ยมน้อยที่สุดจะดีที่สุดมากขึ้น ฉันต้องการใช้วิธีอื่นและแสดงกรณีทั่วไปมากที่สุดเมื่อใช้กำลังสองน้อยที่สุด มาดูสูตรทั่วไปที่สุดของสมการกำลังสองน้อยที่สุด:
มันเป็นแบบจำลองเชิงเส้นสำหรับค่าเฉลี่ยเชิงเงื่อนไขของการตอบสนอง
หมายเหตุฉันมีข้อผิดพลาด หากคุณต้องการสรุปความไม่แน่นอนของคุณจะต้องสนใจทฤษฎีบทขีด จำกัด กลาง ระดับทั่วไปส่วนใหญ่ของตัวประมาณกำลังสองน้อยสุดจะรวมตัวกันเป็นปกติเมื่อพบเงื่อนไขของ Lindeberg : ต้มลงเงื่อนไขของ Lindeberg สำหรับกำลังสองน้อยที่สุดต้องการให้เศษส่วนของส่วนที่เหลือกำลังสองที่ใหญ่ที่สุดเป็นผลรวมของผลรวมของ\ หากการออกแบบของคุณจะทำการสุ่มตัวอย่างที่ใหญ่กว่าและมีขนาดใหญ่กว่านั้นการทดลองก็คือ "ตายในน้ำ"n → ∞
เมื่อตรงตามเงื่อนไขของ Lindeberg พารามิเตอร์การถดถอยจะถูกกำหนดไว้อย่างดีและตัวประมาณเป็นตัวประมาณที่ไม่เอนเอียงซึ่งมีการแจกแจงแบบประมาณ ตัวประมาณที่มีประสิทธิภาพมากขึ้นอาจมีอยู่ ในกรณีอื่น ๆ ของ heteroscedasticity หรือข้อมูลความสัมพันธ์มักจะเป็นประมาณการถ่วงน้ำหนักเป็นมีประสิทธิภาพมากขึ้น นั่นเป็นเหตุผลที่ฉันจะไม่สนับสนุนการใช้วิธีไร้เดียงสาเมื่อมีวิธีที่ดีกว่า แต่พวกเขามักจะไม่ได้!บีตา