ฉันเป็นนักศึกษาเศรษฐศาสตร์ที่มีประสบการณ์เกี่ยวกับเศรษฐมิติและอาร์ฉันอยากจะรู้ว่ามีสถานการณ์ที่เราควรรวมตัวแปรในการถดถอยทั้งๆที่มันไม่ได้มีนัยสำคัญทางสถิติหรือไม่?
ฉันเป็นนักศึกษาเศรษฐศาสตร์ที่มีประสบการณ์เกี่ยวกับเศรษฐมิติและอาร์ฉันอยากจะรู้ว่ามีสถานการณ์ที่เราควรรวมตัวแปรในการถดถอยทั้งๆที่มันไม่ได้มีนัยสำคัญทางสถิติหรือไม่?
คำตอบ:
ใช่
สัมประสิทธิ์นั้นไม่สามารถแยกได้จากศูนย์ไม่ได้หมายความว่าสัมประสิทธิ์เป็นศูนย์จริง ๆ ว่าสัมประสิทธิ์ไม่เกี่ยวข้อง การที่เอฟเฟ็กต์ไม่ผ่านการตัดออกโดยพลการบางอย่างเพื่อนัยสำคัญทางสถิติไม่ได้หมายความว่าเราไม่ควรพยายามควบคุมมัน
โดยทั่วไปปัญหาที่เกิดขึ้นและการออกแบบการวิจัยของคุณควรเป็นแนวทางในการรวมสิ่งที่เป็น regressors
และไม่ได้ใช้เวลานี้เป็นรายการครบถ้วนสมบูรณ์ ไม่ยากเลยที่จะมีรายได้มากขึ้น ...
สถานการณ์ที่นี้มักจะเกิดขึ้นคือการถดถอยที่มีผลกระทบต่อการแก้ไข
สมมติว่าคุณมีข้อมูลพาเนลและต้องการประมาณในโมเดล:
การประเมินรูปแบบนี้มีสี่เหลี่ยมน้อยสามัญที่จะถือว่าเป็นผลกระทบคงที่เทียบเท่ากับการทำงานอย่างน้อยสี่เหลี่ยมธรรมดากับตัวแปรตัวบ่งชี้สำหรับแต่ละฉัน
อย่างไรก็ตามประเด็นก็คือตัวแปร (เช่นค่าสัมประสิทธิ์ของตัวแปรตัวบ่งชี้) มักจะประเมินได้ไม่ดี เอฟเฟกต์คงที่ใด ๆ ก็ตามมักไม่มีนัยสำคัญทางสถิติ แต่คุณยังคงรวมตัวแปรตัวบ่งชี้ทั้งหมดไว้ในการถดถอยหากคุณพิจารณาถึงผลกระทบคงที่
(โปรดทราบว่าแพคเกจสถิติส่วนใหญ่จะไม่ให้ข้อผิดพลาดมาตรฐานสำหรับเอฟเฟกต์คงที่แต่ละตัวเมื่อคุณใช้วิธีการในตัวคุณไม่สนใจความสำคัญของเอฟเฟกต์คงที่แต่ละรายการ .)
หากคุณปรับพหุนามองศาให้เหมาะกับโค้งบางอันคุณมักจะรวมคำพหุนามที่ลดลง
เช่นถ้าคุณปรับให้พอดีกับพหุนามลำดับที่สองคุณจะเรียกใช้:
โดยปกติแล้วจะค่อนข้างแปลกประหลาดในการบังคับและให้เรียกใช้
แต่นักเรียนของกลศาสตร์นิวตันจะสามารถจินตนาการถึงข้อยกเว้นได้
สมมติว่าคุณกำลังประเมินโมเดล AR (p) ที่คุณจะต้องรวมคำสั่งซื้อที่ต่ำกว่า ตัวอย่างเช่นสำหรับ AR (2) คุณจะเรียกใช้:
และมันจะแปลกประหลาดที่จะทำงาน:
ในฐานะที่เป็น @NickCox กล่าวถึงและคำในทำนองเดียวกันมีแนวโน้มที่จะไปด้วยกัน สำหรับข้อมูลเพิ่มเติมให้ดูเช่นเอกสารนี้
คุณต้องการรวมตัวแปรทางด้านขวาเมื่อมีเหตุผลทางทฤษฎีที่ดีที่จะทำ
และเช่นเดียวกับคำตอบอื่น ๆ ที่นี่และในการอภิปราย StackExchange การเลือกตัวแปรที่ชาญฉลาดสามารถสร้างปัญหาทางสถิติได้มากมาย
สิ่งสำคัญคือต้องแยกแยะระหว่าง:
ในกรณีหลังมันเป็นปัญหาที่จะโต้แย้งค่าสัมประสิทธิ์ไม่สำคัญ มันอาจจะวัดได้ไม่ดี
ใช่แล้วล่ะ. ตัวแปรใด ๆ ที่อาจสัมพันธ์กับตัวแปรตอบกลับของคุณในทางที่มีความหมายแม้ในระดับที่ไม่มีนัยสำคัญทางสถิติอาจทำให้การถดถอยของคุณสับสนหากไม่ได้รวมไว้ สิ่งนี้เรียกว่า underspecification และนำไปสู่การประมาณค่าพารามิเตอร์ที่ไม่แม่นยำเท่าที่ควร
https://onlinecourses.science.psu.edu/stat501/node/328
จากด้านบน:
แบบจำลองการถดถอยจะเน้นด้านล่าง (ผลลัพธ์ 2) หากสมการการถดถอยหายไปหนึ่งหรือหลายตัวแปรตัวทำนายที่สำคัญ สถานการณ์นี้อาจเป็นสถานการณ์ที่เลวร้ายที่สุดเพราะแบบจำลองที่ไม่ได้ระบุจะให้ค่าสัมประสิทธิ์การถดถอยแบบเอนเอียงและการทำนายแบบเอนเอียงของการตอบสนอง นั่นคือในการใช้แบบจำลองเราจะดูถูกดูแคลนหรือประเมินค่าสูงเกินไปความลาดชันของประชากรและค่าเฉลี่ยของประชากร เพื่อทำให้เรื่องเลวร้ายเลวลงไปแล้วความผิดพลาดกำลังสองของค่าเฉลี่ยของ MSE มีแนวโน้มที่จะประเมินค่าสูงไปσ²ดังนั้นจึงให้ช่วงความมั่นใจที่กว้างกว่าที่ควรจะเป็น
โดยปกติคุณจะไม่รวมหรือแยกตัวแปรสำหรับการถดถอยเชิงเส้นเนื่องจากความสำคัญ คุณรวมไว้เพราะคุณคิดว่าตัวแปรที่เลือกนั้นเป็นตัวทำนาย (ดี) ของเกณฑ์การถดถอย กล่าวอีกนัยหนึ่งการเลือกผู้ทำนายขึ้นอยู่กับทฤษฎี
ความไม่แน่นอนเชิงสถิติในการถดถอยเชิงเส้นอาจหมายถึงสองสิ่ง (ซึ่งฉันรู้):
เหตุผลที่ถูกต้องในการยกเว้นตัวทำนายที่ไม่สำคัญคือคุณกำลังมองหาชุดย่อยที่เล็กที่สุดของตัวทำนายที่อธิบายความแปรปรวนของเกณฑ์หรือส่วนใหญ่ หากคุณพบมันตรวจสอบทฤษฎีของคุณ
ในเศรษฐมิติสิ่งนี้เกิดขึ้นทางซ้ายและขวา ตัวอย่างเช่นหากคุณใช้หุ่นจำลองตามฤดูกาลรายไตรมาส Q2, Q3, และ Q4 มันเกิดขึ้นบ่อยครั้งในฐานะที่เป็นกลุ่มที่มีความสำคัญ แต่บางคนก็ไม่ได้มีความหมายแยกกัน ในกรณีนี้คุณมักจะเก็บไว้ทั้งหมด
อีกกรณีทั่วไปคือการโต้ตอบ พิจารณาแบบจำลองโดยที่เอฟเฟกต์หลักไม่สำคัญ แต่การทำงานร่วมกันของคือ ในกรณีนี้มันเป็นธรรมเนียมในการรักษาผลหลัก มีสาเหตุหลายประการที่ทำให้คุณไม่ควรทิ้งมันและบางคนถูกอภิปรายในฟอรัมz x ∗ z
อัปเดต: อีกตัวอย่างทั่วไปคือการคาดการณ์ เศรษฐมิติมักสอนจากมุมมองเชิงอนุมานในแผนกเศรษฐศาสตร์ ในมุมมองการอนุมานความสนใจจำนวนมากอยู่ที่ค่านิยมและความสำคัญเนื่องจากคุณพยายามเข้าใจว่าอะไรเป็นสาเหตุอะไร ในการคาดการณ์ไม่มีความสำคัญกับสิ่งนี้มากนักเพราะสิ่งที่คุณใส่ใจคือแบบจำลองที่สามารถคาดการณ์ตัวแปรที่น่าสนใจได้ดีเพียงใด
ซึ่งคล้ายกับแอปพลิเคชันการเรียนรู้ด้วยเครื่อง btw ซึ่งกำลังจะเข้าสู่เศรษฐศาสตร์เมื่อเร็ว ๆ นี้ คุณสามารถมีโมเดลที่มีตัวแปรสำคัญทั้งหมดซึ่งไม่สามารถคาดการณ์ได้ดี ใน ML มันมักจะเกี่ยวข้องกับสิ่งที่เรียกว่า "over fitting" มีการใช้รูปแบบดังกล่าวในการพยากรณ์น้อยมาก
คุณกำลังถามคำถามที่แตกต่างกันสองข้อ:
แก้ไข:สิ่งนี้เป็นจริงเกี่ยวกับโพสต์ต้นฉบับ แต่อาจไม่เป็นจริงหลังจากการแก้ไข
เกี่ยวกับ Q1 ฉันคิดว่ามันอยู่ในขอบเขตที่กว้างเกินไป มีคำตอบที่เป็นไปได้มากมายบางคำตอบที่ให้ไว้แล้ว อีกตัวอย่างหนึ่งคือเมื่อสร้างแบบจำลองสำหรับการพยากรณ์ (ดูแหล่งที่อ้างถึงด้านล่างสำหรับคำอธิบาย)
เกี่ยวกับ Q2 ความสำคัญทางสถิติไม่ใช่เกณฑ์ที่ดีสำหรับการสร้างแบบจำลอง Rob J. Hyndman เขียนสิ่งต่อไปนี้ในบล็อกโพสต์ของเขา"การทดสอบทางสถิติสำหรับการเลือกตัวแปร" :
นัยสำคัญทางสถิติมักไม่ใช่พื้นฐานที่ดีในการพิจารณาว่าควรรวมตัวแปรไว้ในแบบจำลองหรือไม่แม้ว่าจะมีหลายคนที่ควรใช้ตัวแปรเหล่านี้เพื่อจุดประสงค์นี้ <... > การทดสอบทางสถิติออกแบบมาเพื่อทดสอบสมมติฐานไม่ใช่เลือกตัวแปร
นอกจากนี้โปรดทราบว่าคุณมักจะพบตัวแปรบางอย่างที่มีนัยสำคัญทางสถิติอย่างหมดจดโดยบังเอิญ (โอกาสที่จะถูกควบคุมโดยการเลือกระดับความสำคัญ) การสังเกตว่าตัวแปรมีนัยสำคัญทางสถิติไม่เพียงพอที่จะสรุปได้ว่าตัวแปรนั้นเป็นของโมเดล
ฉันจะเพิ่มอีก "ใช่" ฉันได้รับการสอนมาตลอด - และฉันพยายามที่จะผ่านมันไป - การพิจารณาเบื้องต้นในการเลือก covariate คือความรู้เกี่ยวกับโดเมนไม่ใช่สถิติ ในชีวตัวอย่างเช่นถ้าฉันสร้างแบบจำลองผลลัพธ์สุขภาพบางอย่างเกี่ยวกับบุคคลนั้นไม่ว่าสิ่งที่ถดถอยกล่าวว่าคุณจะต้องมีข้อโต้แย้งยี้ที่ดีสำหรับผมที่จะไม่รวมอายุเชื้อชาติและเพศในรูปแบบ
นอกจากนี้ยังขึ้นอยู่กับวัตถุประสงค์ของแบบจำลองของคุณ หากจุดประสงค์คือการได้รับความเข้าใจที่ดีขึ้นเกี่ยวกับปัจจัยที่เกี่ยวข้องกับผลลัพธ์ของคุณมากที่สุดการสร้างแบบจำลองที่มีความสำคัญมีคุณธรรม หากคุณสนใจเกี่ยวกับการทำนายและไม่เข้าใจมากนักการกำจัดโควาเรียต์อาจเป็นปัญหาเล็กน้อย
(สุดท้ายหากคุณวางแผนที่จะใช้สถิติสำหรับการเลือกตัวแปรตรวจสอบสิ่งที่ Frank Harrell พูดในหัวข้อ - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/และหนังสือของเขาที่ถดถอยแบบจำลองกลยุทธ์ . สั้น ๆ ตามเวลาที่คุณได้แบบขั้นตอนที่ใช้หรือกลยุทธ์ทางสถิติตามที่คล้ายกันสำหรับการเลือกทำนายที่ดีที่สุดแล้วการทดสอบของ "? เหล่านี้ทำนายดี" ลำเอียงใด ๆ ชะมัด - ของหลักสูตรที่พวกเขา' เป็นตัวทำนายที่ดีคุณได้เลือกพวกมันบนพื้นฐานนั้นและค่า p สำหรับตัวทำนายเหล่านั้นต่ำอย่างผิด ๆ )
สิ่งเดียวที่ผลลัพธ์ของ "ความไม่มีนัยสำคัญเชิงสถิติ" กล่าวอย่างแท้จริงก็คือว่าในระดับที่เลือกของความผิดพลาด Type I เราไม่สามารถบอกได้ว่าผลของ regressor ที่มีต่อตัวแปรขึ้นอยู่กับว่าเป็นบวกหรือลบ(ดูโพสต์นี้)
ดังนั้นหากเราเก็บ regressor นี้ไว้การสนทนาใด ๆ เกี่ยวกับผลกระทบของตัวเองที่มีต่อตัวแปรอ้างอิงนั้นไม่มีหลักฐานทางสถิติในการสำรองข้อมูล
แต่ความล้มเหลวในการประมาณค่านี้ไม่ได้บอกว่า regressor ไม่ได้อยู่ในความสัมพันธ์เชิงโครงสร้างเพียงบอกว่าด้วยชุดข้อมูลเฉพาะที่เราไม่สามารถระบุได้ด้วยเครื่องหมายบางอย่างของสัมประสิทธิ์
ดังนั้นในหลักการหากมีข้อโต้แย้งเชิงทฤษฎีที่สนับสนุนการมีอยู่ของมัน regressor ควรจะถูกเก็บไว้
คำตอบอื่น ๆ ที่นี่ให้เฉพาะรุ่น / สถานการณ์ที่ regressors ดังกล่าวจะถูกเก็บไว้ในสเปคตัวอย่างเช่นคำตอบที่กล่าวถึงรูปแบบข้อมูลแผงผลคงที่
คุณอาจรวมตัวแปรที่น่าสนใจเป็นพิเศษหากเป็นจุดสนใจของการวิจัยแม้ว่าจะไม่มีนัยสำคัญทางสถิติก็ตาม นอกจากนี้ในชีวสถิตินัยสำคัญทางคลินิกมักจะแตกต่างจากนัยสำคัญทางสถิติ