ฟอเรสต์แบบสุ่มสำหรับการถดถอยนั้นเป็น "การถดถอย" ที่แท้จริงหรือไม่?


18

สุ่มป่าใช้สำหรับการถดถอย อย่างไรก็ตามจากสิ่งที่ฉันเข้าใจพวกเขากำหนดค่าเป้าหมายเฉลี่ยในแต่ละใบ เนื่องจากมีใบที่ จำกัด ในแต่ละต้นเท่านั้นจึงมีค่าเฉพาะที่เป้าหมายสามารถบรรลุได้จากโมเดลการถดถอยของเรา ดังนั้นมันไม่ใช่แค่การถดถอยแบบ 'ไม่ต่อเนื่อง' (เช่นฟังก์ชันขั้นตอน) และไม่เหมือนกับการถดถอยเชิงเส้นซึ่งเป็น 'ต่อเนื่อง'?

ฉันเข้าใจสิ่งนี้ถูกต้องหรือไม่ ถ้าใช่ข้อได้เปรียบของป่าสุ่มในการถดถอยคืออะไร


คำตอบ:


23

นี่เป็นสิ่งที่ถูกต้อง - ฟอเรสต์แบบสุ่มจำแนกตัวแปรต่อเนื่องเนื่องจากอยู่บนต้นไม้การตัดสินใจซึ่งทำงานผ่านการแบ่งพาร์ติชันแบบเรียกซ้ำ แต่ด้วยข้อมูลที่เพียงพอและการแบ่งที่เพียงพอฟังก์ชั่นขั้นตอนที่มีขั้นตอนเล็ก ๆ มากมายสามารถประมาณฟังก์ชั่นที่ราบรื่น ดังนั้นสิ่งนี้ไม่จำเป็นต้องเป็นปัญหา หากคุณต้องการจับการตอบสนองที่ราบรื่นโดยตัวทำนายเดี่ยวคุณจะคำนวณผลกระทบบางส่วนของตัวแปรเฉพาะใด ๆ และปรับฟังก์ชั่นที่ราบรื่นให้เข้ากับมัน (สิ่งนี้จะไม่ส่งผลกระทบต่อตัวแบบเอง

ป่าสุ่มให้ประโยชน์ค่อนข้างน้อยกว่าเทคนิคการถดถอยมาตรฐานสำหรับบางแอปพลิเคชัน พูดถึงเพียงสาม:

  1. อนุญาตให้ใช้ตัวทำนายหลายตัวโดยพลการ (สามารถทำนายได้มากกว่าจุดข้อมูล)
  2. พวกเขาสามารถประมาณรูปร่างที่ไม่เชิงเส้นที่ซับซ้อนโดยไม่มีข้อกำหนดเบื้องต้น
  3. พวกเขาสามารถจับการโต้ตอบที่ซับซ้อนระหว่างการทำนายโดยไม่มีข้อกำหนดเบื้องต้น

สำหรับว่ามันเป็นการถดถอยที่ 'จริง' นี่เป็นความหมายค่อนข้าง หลังจากที่ทุกถดถอยค่คือการถดถอยเกินไป แต่ก็ยังไม่ราบรื่น เช่นเดียวกับการถดถอยที่มีตัวทำนายหมวดหมู่ตามที่ระบุไว้ในความคิดเห็นด้านล่าง


7
นอกจากนี้การถดถอยที่มีคุณสมบัติหมวดหมู่ก็ไม่ราบรื่นเช่นกัน
ทิม

3
การถดถอยที่มีคุณสมบัติหมวดหมู่แม้แต่หนึ่งเดียวอาจราบรื่นหรือไม่?
เดฟ

4

มันไม่ต่อเนื่อง แต่จากนั้นเอาท์พุทใด ๆ ในรูปแบบของจำนวนจุดลอยตัวที่มีจำนวนบิตคงที่จะไม่ต่อเนื่อง หากต้นไม้มี 100 ใบก็จะสามารถให้ 100 หมายเลขที่แตกต่างกัน หากคุณมี 100 ต้นที่แตกต่างกัน 100 ใบแต่ละต้นป่าสุ่มของคุณในทางทฤษฎีจะมีค่าแตกต่างกัน 100 ^ 100 ซึ่งสามารถให้ความแม่นยำ 200 หลัก (ทศนิยม) หรือ ~ 600 บิต แน่นอนว่าจะมีการทับซ้อนบ้างดังนั้นคุณจะไม่เห็นค่าที่แตกต่างกัน 100 ^ 100 การกระจายมีแนวโน้มที่จะไม่ต่อเนื่องมากขึ้นยิ่งคุณไปถึงสุดขั้ว; ต้นไม้แต่ละต้นจะมีใบขั้นต่ำบางใบ (ใบไม้ที่ให้ผลผลิตที่น้อยกว่าหรือเท่ากับใบอื่น ๆ ทั้งหมด) และเมื่อคุณได้รับใบขั้นต่ำจากต้นไม้แต่ละต้นคุณจะไม่ได้รับต่ำกว่า ดังนั้นจะมีค่าโดยรวมขั้นต่ำสำหรับป่า และในขณะที่คุณเบี่ยงเบนจากค่านั้นคุณจะเริ่มต้นด้วยต้นไม้เพียงไม่กี่ต้นที่อยู่ในใบไม้น้อยที่สุดทำให้เบี่ยงเบนเล็กน้อยจากการเพิ่มมูลค่าขั้นต่ำในการกระโดดแบบไม่ต่อเนื่อง แต่ความน่าเชื่อถือที่ลดลงที่สุดขั้วเป็นสมบัติของการถดถอยโดยทั่วไปไม่ใช่แค่ป่าสุ่ม


ใบไม้สามารถเก็บค่าใด ๆ จากข้อมูลการฝึกอบรม (ด้วยข้อมูลการฝึกอบรมที่ถูกต้องต้นไม้ 100 ต้นจาก 100 ใบสามารถเก็บค่าได้ 10,000 ค่า) แต่ค่าที่ส่งคืนคือค่าเฉลี่ยของใบไม้ที่เลือกจากต้นไม้แต่ละต้น ดังนั้นจำนวนบิตของความแม่นยำของค่านั้นจะเท่ากันไม่ว่าคุณจะมี 2 ต้นหรือ 100 ต้น
Darren Cook

3

คำตอบจะขึ้นอยู่กับสิ่งที่เป็นความหมายของการถดถอยดูความหมายและการปักปันเขตของรูปแบบการถดถอย แต่ความหมายปกติ (หรือเป็นส่วนหนึ่งของความหมาย) คือว่ารูปแบบการถดถอยความคาดหวังที่มีเงื่อนไข และต้นไม้การถดถอยสามารถถูกมองว่าเป็นตัวประมาณความคาดหวังตามเงื่อนไข

ในโหนดใบคุณคาดการณ์ค่าเฉลี่ยของการสังเกตตัวอย่างถึงใบนั้นและค่าเฉลี่ยเลขคณิตเป็นตัวประมาณความคาดหวัง รูปแบบการแตกกิ่งในต้นไม้หมายถึงการปรับสภาพ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.