ฉันคิดว่าไม่มีคำตอบเดียวสำหรับคำถามของคุณ - ขึ้นอยู่กับสถานการณ์ข้อมูลและสิ่งที่คุณพยายามทำ การปรับเปลี่ยนบางอย่างสามารถหรือควรปรับเปลี่ยนเพื่อให้บรรลุเป้าหมาย อย่างไรก็ตามการสนทนาทั่วไปต่อไปนี้สามารถช่วยได้
ก่อนที่จะกระโดดไปลงในวิธีการที่สูงขึ้นช่วยให้การสนทนาของรูปแบบพื้นฐานแรก: สแควน้อย (LS) ถดถอย มีเหตุผลสองประการที่พารามิเตอร์การประมาณกำลังสองน้อยที่สุดของแบบจำลองเต็มรูปแบบไม่เป็นที่พอใจ:
คุณภาพการทำนาย: การประมาณกำลังสองน้อยที่สุดมักจะมีอคติเล็กน้อย แต่มีความแปรปรวนสูง คุณภาพการทำนายบางครั้งสามารถปรับปรุงได้โดยการลดขนาดของค่าสัมประสิทธิ์การถดถอยหรือโดยการตั้งค่าค่าสัมประสิทธิ์บางค่าเท่ากับศูนย์ วิธีนี้ความลำเอียงเพิ่มขึ้น แต่ความแปรปรวนของการทำนายลดลงอย่างมีนัยสำคัญซึ่งนำไปสู่การทำนายที่ปรับปรุงโดยรวม การแลกเปลี่ยนระหว่างอคติและความแปรปรวนนี้สามารถมองเห็นได้ง่ายโดยการแยกข้อผิดพลาดกำลังสองเฉลี่ย (MSE) MSE ที่เล็กลงนำไปสู่การทำนายค่าใหม่ที่ดีขึ้น
การตีความ : หากมีตัวแปรทำนายจำนวนมากมันก็สมเหตุสมผลที่จะระบุตัวที่มีค่ามากที่สุดและตั้งค่าให้เป็นศูนย์ซึ่งไม่เกี่ยวข้องกับการทำนาย ดังนั้นเราจึงกำจัดตัวแปรที่จะอธิบายรายละเอียดบางอย่างเท่านั้น แต่เราเก็บไว้ซึ่งคำอธิบายที่สำคัญของตัวแปรตอบกลับ
วิธีการเลือกตัวแปรจึงเข้ามาในฉาก ด้วยการเลือกตัวแปรใช้ชุดย่อยของตัวแปรอินพุตทั้งหมดเท่านั้นส่วนที่เหลือจะถูกตัดออกจากโมเดล ที่ดีที่สุดชุดย่อยถดถอย Fi NDS ย่อยของขนาดสำหรับแต่ละk ∈ { 0 , 1 , . . , p }ที่ให้ RSS ที่เล็กที่สุด อัลกอริธึมอิเล็กทรอนิกส์เป็นอัลกอริธึมLeaps and Bounds ที่เรียกว่าซึ่งสามารถจัดการตัวแปร regressor ได้สูงถึง30หรือ40ตัว ด้วยชุดข้อมูลที่มีขนาดใหญ่กว่า40kk∈{0,1,...,p}304040ตัวแปรอินพุตการค้นหาผ่านชุดย่อยที่เป็นไปได้ทั้งหมดจะกลายเป็นไปไม่ได้ ดังนั้นการเลือกแบบขั้นตอนไปข้างหน้าและการเลือกแบบขั้นตอนย้อนหลังจึงเป็นประโยชน์ การเลือกแบบย้อนหลังสามารถใช้ได้เมื่อเพื่อให้มีโมเดลที่ดี ประสิทธิภาพการคำนวณของวิธีการเหล่านี้เป็นที่น่าสงสัยเมื่อpn>ppสูงมาก
ในหลาย ๆ สถานการณ์เรามีอินพุตจำนวนมาก (เป็นของคุณ) ซึ่งมักจะมีความสัมพันธ์สูง (เช่นในกรณีของคุณ) ในกรณีที่มีความสัมพันธ์อย่างมาก regressors, OLS นำไปสู่การพารามิเตอร์ instable ตัวเลขคือไม่น่าเชื่อถือประมาณการ เพื่อหลีกเลี่ยงปัญหานี้เราใช้วิธีการที่ใช้ทิศทางอินพุตที่ได้รับ วิธีการเหล่านี้ผลิตจำนวนเล็ก ๆ ของผลรวมเชิงเส้นZ k , k = 1 , 2 , . . , qของอินพุตดั้งเดิมx jβzk,k=1,2,...,qxjซึ่งถูกใช้เป็นอินพุตในการถดถอย
วิธีการต่างๆในการสร้างชุดค่าผสมเชิงเส้น องค์ประกอบหลักถดถอย (PCR)มองหาการเปลี่ยนแปลงของข้อมูลต้นฉบับในชุดใหม่ของตัวแปร uncorrelated เรียกว่าองค์ประกอบหลัก
yXyXβγγq≤pXyy
λ≥0λ
ββ βด้วยการกำหนดข้อ จำกัด ขนาดบนค่าสัมประสิทธิ์ปรากฏการณ์นี้สามารถป้องกันได้
Xp−q
Yiความแตกต่างระหว่าง L1 และ L2 ก็คือ L2 คือผลรวมของกำลังสองของน้ำหนักขณะที่ L1 เป็นผลรวมของน้ำหนัก L1-norm มีแนวโน้มที่จะสร้างสัมประสิทธิ์กระจัดกระจายและมีการเลือกคุณสมบัติในตัว L1-norm ไม่มีวิธีวิเคราะห์ แต่ L2-norm ทำ สิ่งนี้ทำให้สามารถคำนวณโซลูชัน L2-norm ได้อย่างมีประสิทธิภาพ L2-norm มีวิธีแก้ปัญหาที่ไม่ซ้ำกันในขณะที่ L1-norm ไม่มี
s0sควรเลือก adaptly เพื่อลดการประมาณการของข้อผิดพลาดการคาดการณ์คาดว่า
p≫N
การวิเคราะห์องค์ประกอบหลักเป็นวิธีที่มีประสิทธิภาพสำหรับการค้นหาการรวมกันเชิงเส้นของคุณลักษณะที่แสดงชุดรูปแบบขนาดใหญ่ในชุดข้อมูล แต่สิ่งที่เราค้นหาที่นี่คือการผสมผสานแบบเส้นตรงที่มีทั้งความแปรปรวนสูงและความสัมพันธ์อย่างมีนัยสำคัญกับผลลัพธ์ ดังนั้นเราต้องการส่งเสริมการวิเคราะห์องค์ประกอบหลักเพื่อหาชุดค่าผสมเชิงเส้นของคุณสมบัติที่มีความสัมพันธ์สูงกับผลลัพธ์ - องค์ประกอบหลักที่มีการดูแล (ดูหน้า 678, อัลกอริทึม 18.1, ในหนังสือองค์ประกอบของการเรียนรู้ทางสถิติ )
สี่เหลี่ยมจัตุรัสที่น้อยที่สุดบางส่วนลงน้ำหนักจะมีเสียงดัง แต่ไม่ทิ้งไป เป็นผลให้คุณสมบัติที่มีเสียงดังจำนวนมากสามารถปนเปื้อนการคาดการณ์ PLS ที่ จำกัด สามารถดูได้ว่าเป็นองค์ประกอบหลักที่มีการควบคุมดูแลที่มีเสียงดังและด้วยเหตุนี้เราอาจไม่คาดหวังว่ามันจะทำงานได้ดีในทางปฏิบัติ องค์ประกอบหลักภายใต้การดูแลสามารถให้ผลผลิตข้อผิดพลาดการทดสอบต่ำกว่าPLS เกณฑ์ อย่างไรก็ตามมันไม่ได้สร้างแบบจำลองที่กระจัดกระจายที่เกี่ยวข้องกับคุณสมบัติจำนวนเล็กน้อยเท่านั้น
p