ระเบียบวิธีการป่าแบบสุ่มสามารถนำไปใช้กับการถดถอยเชิงเส้นได้หรือไม่?


14

ป่าสุ่มทำงานโดยการสร้างกลุ่มของต้นไม้การตัดสินใจที่ต้นไม้แต่ละต้นถูกสร้างขึ้นโดยใช้ตัวอย่างบูตสแตรปของข้อมูลการฝึกอบรมดั้งเดิม (ตัวอย่างของตัวแปรอินพุตและการสังเกต)

สามารถใช้กระบวนการที่คล้ายกันสำหรับการถดถอยเชิงเส้นได้หรือไม่? สร้างโมเดลการถดถอยเชิงเส้น k โดยใช้ตัวอย่างบูทสแตรปแบบสุ่มสำหรับแต่ละการถดถอย k

อะไรคือเหตุผลที่ไม่สร้าง "การถดถอยแบบสุ่ม" เหมือนโมเดล

ขอบคุณ หากมีบางสิ่งที่ฉันเข้าใจผิดไปจากเดิมโปรดแจ้งให้เราทราบ


เมื่อบูทสแตรปรวมต้นไม้ฟังก์ชั่นการถดถอยโดยรวมจะมีความซับซ้อนมากขึ้นเมื่อต้นไม้ทุกต้นเพิ่มขึ้น ในทางกลับกันเมื่อ bootstrap รวมฟังก์ชั่นเชิงเส้นของแบบฟอร์มa_0 + a_1 * x_1 + ... + a_d * x_dผลลัพธ์เชิงเส้นเฉลี่ยฟังก์ชัน (หลังจากรวม bootstrap) ยังคงมีรูปแบบการทำงานเชิงเส้นเหมือนกับที่คุณเริ่มต้นด้วย (เช่น 'ผู้เรียนฐาน')
Andre Holzner

1
@ Andre Holzner - สิ่งที่คุณพูดมันเป็นความจริง แต่ แต่ ... การทำฟอเรสต์แบบสุ่มนี้เป็นรูปแบบของการทำให้เป็นจริง ฉันจะบอกความลับแก่คุณจริง ๆ แล้วต้นไม้การถดถอยเป็นแบบจำลองเชิงเส้น - คลาสที่คล้ายกับเส้นโค้ง การใส่หมวกเบย์ของฉันเป็นประจำผู้อุปถัมภ์ฟอเรสต์แบบสุ่มมีแนวโน้มที่จะตรงกับนักบวช "เข็มและแผ่น" ที่ใช้ในบริบทเบย์
ความน่าจะเป็นทาง

@probabilityislogic คุณช่วยอธิบายได้ไหม
Simon Kuang

คุณสามารถคิดว่าต้นไม้เป็นแบบเชิงเส้น E เป็นเมทริกซ์การออกแบบที่ระบุว่าโหนดเทอร์มินัลแต่ละการสังเกตนั้นเป็นของทรีและเป็นเวกเตอร์ที่สอดคล้องกันของการทำนายโหนดเทอร์มินัล ต้นไม้ใด ๆ ที่สามารถอธิบายได้ด้วยวิธีนี้ - การเลือกต้นไม้เทียบเท่ากับการเลือกแบบจำลองเชิงเส้นมาตรฐานในพื้นที่ของ - ซึ่งมีเป็นไปได้ "โหนดโหนด" cconfigurations ฉันคิดว่า (ที่คือขนาดตัวอย่างการฝึกอบรม) Z t t θ t Z t 2 n ny=Ztθt+eZttθtZt2nn
ความน่าจะเป็นทางการที่

คำตอบ:


5

ฉันไม่เห็นด้วยกับคำตอบในปัจจุบันบางส่วนเนื่องจากฟอเรสต์แบบสุ่มของฟอเรสต์ถูกสร้างขึ้นตามการแนะนำความแปรปรวน เมื่อคุณมีต้นไม้มุมฉากแล้วค่าเฉลี่ยของการคาดการณ์ของพวกเขา (ในหลาย ๆ กรณี) จะดีกว่าการคาดการณ์ของต้นไม้เฉลี่ย (เพราะความไม่เท่าเทียมของเซ่น) แม้ว่ารถเข็นจะมีความสามารถที่เห็นได้ชัดเจนเมื่ออยู่ภายใต้การรักษาวิธีการนี้ใช้กับรูปแบบใด ๆ และตัวแบบเชิงเส้นแน่นอนไม่มีข้อยกเว้น นี่คือแพ็คเกจ R ซึ่งเป็นสิ่งที่คุณกำลังมองหา จะนำเสนอการกวดวิชาที่ดีเกี่ยวกับวิธีการปรับแต่งและแปลความหมายพวกเขาและบรรณานุกรมในเรื่อง: สุ่มเชิงเส้นทั่วไปรุ่น


14

หากต้องการนำการตอบสนองของ @ ziggystar ในแง่ของศัพท์แสงการเรียนรู้ของเครื่อง: ความคิดเบื้องหลังเทคนิคการรวม bootstrap (เช่นป่าสุ่ม) คือการสร้างแบบจำลองความแปรปรวนต่ำหลายแบบให้กับข้อมูลที่มีองค์ประกอบของ "ความสุ่ม" หรือ "ความไร้เสถียรภาพ" ในกรณีของฟอเรสต์แบบสุ่มความไม่แน่นอนจะถูกเพิ่มผ่านการบูตสแตรปและโดยเลือกชุดของคุณลักษณะแบบสุ่มเพื่อแยกแต่ละโหนดของต้นไม้ การเฉลี่ยข้ามต้นไม้ที่มีเสียงดัง แต่มีอคติต่ำต้นไม้จะลดความแปรปรวนของต้นไม้แต่ละต้นได้

ในขณะที่การถดถอย / การจำแนกต้นไม้เป็นแบบ "อคติต่ำความแปรปรวนสูง" แบบจำลองการถดถอยเชิงเส้นมักจะตรงกันข้าม - "อคติสูงความแปรปรวนต่ำ" ดังนั้นปัญหาที่มักเผชิญกับตัวแบบเชิงเส้นคือการลดอคติไม่ลดความแปรปรวน การรวม Bootstrap ไม่ได้ทำเช่นนี้

ปัญหาเพิ่มเติมคือการบูตสแตรปอาจไม่ให้ "ความสุ่ม" หรือ "ความไม่แน่นอน" เพียงพอในโมเดลเชิงเส้นทั่วไป ฉันคาดหวังว่าต้นไม้การถดถอยจะมีความไวต่อการสุ่มตัวอย่างของ bootstrap ตัวอย่างมากขึ้นเนื่องจากโดยทั่วไปแล้วใบไม้แต่ละใบจะมีจุดข้อมูลจำนวนหนึ่ง นอกจากนี้ต้นไม้การถดถอยสามารถเติบโตแบบสุ่มโดยแยกต้นไม้ออกเป็นชุดย่อยของตัวแปรที่แต่ละโหนด ดูคำถามก่อนหน้านี้ว่าทำไมสิ่งนี้จึงสำคัญ: ทำไมป่าสุ่มแบ่งออกตามคุณสมบัติการสุ่ม m

จากทั้งหมดที่กล่าวมาคุณสามารถใช้ bootstrapping กับแบบจำลองเชิงเส้น[LINK]และสิ่งนี้จะมีประโยชน์มากในบริบทบางอย่าง อย่างไรก็ตามแรงจูงใจนั้นแตกต่างจากเทคนิคการรวม bootstrap


ขอบคุณสำหรับลิงค์และคำตอบ หากวิธีการแบบสุ่มนั้นมีประโยชน์สำหรับโมเดล "อคติต่ำความแปรปรวนสูง" มีวิธีใดบ้างสำหรับการจัดการกับโมเดลประเภทตรงข้าม "อคติสูงความแปรปรวนต่ำ"?
Rick

หากคุณมีอคติต่ำรูปแบบความแปรปรวนสูงวิธีการเช่นการบรรจุถุงสามารถลดความแปรปรวนที่เพิ่มขึ้นเล็กน้อยในอคติ หากคุณมีอคติสูงความแปรปรวนต่ำให้ใช้แบบจำลองที่มีความเอนเอียงต่ำและความแปรปรวนที่สูงกว่า - เช่นการถดถอยพหุนามหรือวิธีเคอร์เนลโดยทั่วไป
Joe

10

kk

และนี่คือเหตุผลว่าทำไมมันจึงไม่น่าดึงดูดใจที่จะทำสิ่งที่ "สุ่ม" กับโมเดลเชิงเส้นเหมือนกับต้นไม้ตัดสินใจ:

ต้นไม้ตัดสินใจขนาดใหญ่ที่สร้างจากกลุ่มตัวอย่างขนาดใหญ่มีแนวโน้มที่จะทำให้ข้อมูลมีความเหมาะสมมากเกินไปและวิธีการสุ่มของป่าจะต่อสู้กับผลกระทบนี้โดยอาศัยการลงคะแนนของต้นไม้ขนาดเล็กจำนวนมาก

การถดถอยเชิงเส้นในอีกแง่หนึ่งเป็นรูปแบบที่ไม่น่าจะมีแนวโน้มที่จะมีน้ำหนักเกินและดังนั้นจึงไม่เจ็บโดยการฝึกอบรมในตัวอย่างที่สมบูรณ์ในการเริ่มต้น และแม้ว่าคุณจะมีตัวแปร regressor จำนวนมากคุณสามารถใช้เทคนิคอื่น ๆ เช่นการทำให้เป็นมาตรฐานเพื่อต่อสู้กับการ overfitting


0

k

X1,X2,...,XnBe(p)
p1p
θ=1{p>0}
Xi=1θ=1θθ
Bias bagging=Prob(in a bootstrap sample X(1)=...=X(n)=0)>0,
θ=1

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.