ฉันมีชุดข้อมูลขนาดใหญ่ซึ่งประกอบด้วยค่าของตัวแปรทางการเงินหลายร้อยตัวที่สามารถใช้ในการถดถอยหลายครั้งเพื่อทำนายพฤติกรรมของกองทุนดัชนีในช่วงเวลาหนึ่ง ฉันต้องการลดจำนวนของตัวแปรให้เหลือเพียงสิบหรือมากกว่านั้นในขณะที่ยังคงรักษาพลังการทำนายได้มากที่สุด เพิ่มเติม: ชุดของตัวแปรที่ลดลงจะต้องเป็นชุดย่อยของชุดตัวแปรดั้งเดิมเพื่อที่จะรักษาความหมายทางเศรษฐกิจของตัวแปรดั้งเดิมไว้ ตัวอย่างเช่นฉันไม่ควรลงท้ายด้วยชุดค่าผสมเชิงเส้นหรือมวลรวมของตัวแปรดั้งเดิม
ความคิด (อาจไร้เดียงสา) บางอย่างเกี่ยวกับวิธีการทำเช่นนี้:
- ดำเนินการถดถอยเชิงเส้นที่เรียบง่ายกับตัวแปรแต่ละตัวและเลือกสิบมีขนาดใหญ่ที่สุดค่า แน่นอนไม่มีการรับประกันว่าตัวแปรที่ดีที่สุดสิบตัวที่รวมกันจะเป็นกลุ่มที่ดีที่สุดของสิบคน
- ทำการวิเคราะห์ส่วนประกอบหลักและลองค้นหาตัวแปรสิบตัวแรกที่มีความสัมพันธ์มากที่สุดกับแกนหลักสองสามตัวแรก
ฉันไม่คิดว่าฉันสามารถทำการถดถอยแบบลำดับชั้นได้เนื่องจากตัวแปรนั้นไม่ซ้อนกันจริงๆ การลองชุดค่าผสมที่เป็นไปได้ทั้งหมดของตัวแปรสิบตัวนั้นเป็นไปไม่ได้เนื่องจากไม่มีชุดค่าผสมมากเกินไป
มีวิธีการมาตรฐานในการจัดการกับปัญหานี้ในการลดจำนวนตัวแปรในการถดถอยหลายครั้งหรือไม่?
ดูเหมือนว่านี่จะเป็นปัญหาที่พบได้บ่อยพอที่จะมีวิธีการมาตรฐาน
คำตอบที่เป็นประโยชน์มากคือคำตอบที่ไม่เพียง แต่กล่าวถึงวิธีมาตรฐาน แต่ยังให้ภาพรวมของวิธีการและสาเหตุ อีกวิธีหนึ่งถ้าไม่มีวิธีการแบบมาตรฐาน แต่มีหลายวิธีที่มีจุดแข็งและจุดอ่อนที่แตกต่างกันคำตอบที่มีประโยชน์มากก็คือคำตอบที่เป็นประโยชน์
ความคิดเห็นของ whuber ด้านล่างแสดงว่าคำขอในย่อหน้าสุดท้ายนั้นกว้างเกินไป แต่ฉันจะยอมรับว่าเป็นคำตอบที่ดีสำหรับรายการของวิธีการที่สำคัญบางทีอาจมีคำอธิบายสั้น ๆ ของแต่ละวิธี เมื่อฉันมีเงื่อนไขฉันสามารถขุดรายละเอียดในแต่ละตัวเอง