หากต้องการนำการตอบสนองของ @ ziggystar ในแง่ของศัพท์แสงการเรียนรู้ของเครื่อง: ความคิดเบื้องหลังเทคนิคการรวม bootstrap (เช่นป่าสุ่ม) คือการสร้างแบบจำลองความแปรปรวนต่ำหลายแบบให้กับข้อมูลที่มีองค์ประกอบของ "ความสุ่ม" หรือ "ความไร้เสถียรภาพ" ในกรณีของฟอเรสต์แบบสุ่มความไม่แน่นอนจะถูกเพิ่มผ่านการบูตสแตรปและโดยเลือกชุดของคุณลักษณะแบบสุ่มเพื่อแยกแต่ละโหนดของต้นไม้ การเฉลี่ยข้ามต้นไม้ที่มีเสียงดัง แต่มีอคติต่ำต้นไม้จะลดความแปรปรวนของต้นไม้แต่ละต้นได้
ในขณะที่การถดถอย / การจำแนกต้นไม้เป็นแบบ "อคติต่ำความแปรปรวนสูง" แบบจำลองการถดถอยเชิงเส้นมักจะตรงกันข้าม - "อคติสูงความแปรปรวนต่ำ" ดังนั้นปัญหาที่มักเผชิญกับตัวแบบเชิงเส้นคือการลดอคติไม่ลดความแปรปรวน การรวม Bootstrap ไม่ได้ทำเช่นนี้
ปัญหาเพิ่มเติมคือการบูตสแตรปอาจไม่ให้ "ความสุ่ม" หรือ "ความไม่แน่นอน" เพียงพอในโมเดลเชิงเส้นทั่วไป ฉันคาดหวังว่าต้นไม้การถดถอยจะมีความไวต่อการสุ่มตัวอย่างของ bootstrap ตัวอย่างมากขึ้นเนื่องจากโดยทั่วไปแล้วใบไม้แต่ละใบจะมีจุดข้อมูลจำนวนหนึ่ง นอกจากนี้ต้นไม้การถดถอยสามารถเติบโตแบบสุ่มโดยแยกต้นไม้ออกเป็นชุดย่อยของตัวแปรที่แต่ละโหนด ดูคำถามก่อนหน้านี้ว่าทำไมสิ่งนี้จึงสำคัญ: ทำไมป่าสุ่มแบ่งออกตามคุณสมบัติการสุ่ม m
จากทั้งหมดที่กล่าวมาคุณสามารถใช้ bootstrapping กับแบบจำลองเชิงเส้น[LINK]และสิ่งนี้จะมีประโยชน์มากในบริบทบางอย่าง อย่างไรก็ตามแรงจูงใจนั้นแตกต่างจากเทคนิคการรวม bootstrap
a_0 + a_1 * x_1 + ... + a_d * x_d
ผลลัพธ์เชิงเส้นเฉลี่ยฟังก์ชัน (หลังจากรวม bootstrap) ยังคงมีรูปแบบการทำงานเชิงเส้นเหมือนกับที่คุณเริ่มต้นด้วย (เช่น 'ผู้เรียนฐาน')