ฉันกำลังเขียนการนำป่าสุ่มมาใช้ แต่ฉันเชื่อว่าคำถามนี้มีความเฉพาะเจาะจงกับต้นไม้ตัดสินใจ (เป็นอิสระจาก RFs)
บริบทคือฉันกำลังสร้างโหนดในแผนผังการตัดสินใจและทั้งการทำนายและตัวแปรเป้าหมายนั้นต่อเนื่อง โหนดมีเกณฑ์แยกเพื่อแบ่งพาร์ติชันข้อมูลออกเป็นสองชุดและฉันสร้างการทำนายใหม่สำหรับแต่ละชุดย่อยตามค่าเป้าหมายเฉลี่ยในแต่ละชุด นี่เป็นวิธีที่ถูกต้องหรือไม่?
เหตุผลที่ฉันถามคือเมื่อทำนายตัวแปรไบนารีฉันเชื่อว่าวิธีการทั่วไป (ถูกต้อง?) คือการแบ่งข้อมูลออกเป็น 0 และ 1 ชุดย่อยโดยไม่ต้องเฉลี่ยค่าเฉลี่ยในแถวข้อมูลในแต่ละชุดย่อย การแยกตามมาจะแบ่งออกเป็นชุดย่อยที่ละเอียดยิ่งขึ้นและรับค่าเฉลี่ยในแต่ละการแยกผลลัพธ์ที่ตามมาแยก (ลดลงต้นไม้การตัดสินใจ) ปฏิบัติการในสิ่งที่ตอนนี้ตัวแปรต่อเนื่องมากกว่าตัวแปรไบนารี (เพราะเราทำงานในค่าความผิดพลาดที่เหลือ เป้าหมาย)
คำถามข้างเคียง: ความแตกต่างระหว่างทั้งสองวิธีนั้นมีความสำคัญหรือไม่หรือพวกเขาจะให้ผลลัพธ์ที่เหมือนกันสำหรับต้นไม้การตัดสินใจที่สมบูรณ์หรือไม่