ขอบคุณสำหรับคำถามที่ดีมาก! ฉันจะพยายามให้สัญชาตญาณของฉันอยู่ข้างหลัง
เพื่อที่จะเข้าใจสิ่งนี้จำ "ส่วนผสม" ของตัวจําแนกฟอเรสต์แบบสุ่ม (มีการดัดแปลงบางอย่าง แต่นี่คือท่อส่งทั่วไป):
- ในแต่ละขั้นตอนของการสร้างต้นไม้แต่ละต้นเราจะพบการแยกข้อมูลที่ดีที่สุด
- ในขณะที่สร้างต้นไม้เราไม่ได้ใช้ชุดข้อมูลทั้งหมด แต่เป็นตัวอย่าง bootstrap
- เรารวบรวมผลของต้นไม้แต่ละต้นโดยเฉลี่ย (จริง ๆ แล้ว 2 และ 3 หมายถึงขั้นตอนการบรรจุถุงทั่วไปมากขึ้น)
สมมติว่าเป็นจุดแรก ไม่สามารถหาการแยกที่ดีที่สุดได้เสมอไป ตัวอย่างเช่นในชุดข้อมูลต่อไปนี้แต่ละการแบ่งจะให้หนึ่งวัตถุที่ผิดประเภท
และฉันคิดว่าจุดนี้อาจทำให้สับสน: จริง ๆ แล้วพฤติกรรมของการแยกบุคคลนั้นคล้ายกับพฤติกรรมของลักษณนาม Naive Bayes: หากตัวแปรขึ้นอยู่กับ - ไม่มีการแยกที่ดีกว่าสำหรับต้นไม้การตัดสินใจและลักษณนาม Naive Bayes ก็ล้มเหลวเช่นกัน (เพื่อเตือน: ตัวแปรอิสระเป็นสมมติฐานหลักที่เราสร้างในตัวจําแนก Naive Bayes; สมมติฐานอื่น ๆ ทั้งหมดมาจากโมเดลความน่าจะเป็นที่เราเลือก)
แต่นี่มาประโยชน์ที่ดีของต้นไม้ตัดสินใจ: เราใช้เวลาใด ๆแยกและยังคงแยกเพิ่มเติม และสำหรับการแยกต่อไปนี้เราจะพบการแยกที่สมบูรณ์แบบ (สีแดง)
และเนื่องจากเราไม่มีโมเดลความน่าจะเป็น แต่เป็นเพียงการแบ่งไบนารีเราไม่จำเป็นต้องตั้งสมมติฐานใด ๆ เลย
นั่นเป็นเรื่องเกี่ยวกับต้นไม้แห่งการตัดสินใจ แต่มันก็ใช้กับป่าสุ่ม ความแตกต่างคือสำหรับฟอเรสต์ฟอเรสต์เราใช้ Bootstrap Aggregation มันไม่มีที่อยู่ภายใต้รูปแบบและสมมติฐานที่เดียวที่มันอาศัยคือการสุ่มตัวอย่างเป็นตัวแทน แต่นี่เป็นข้อสันนิษฐานทั่วไป ตัวอย่างเช่นหากคลาสหนึ่งประกอบด้วยสองคอมโพเนนต์และในชุดข้อมูลหนึ่งองค์ประกอบของเราจะถูกแทนด้วย 100 ตัวอย่างและองค์ประกอบอื่นจะถูกแทนด้วย 1 ตัวอย่าง - อาจเป็นต้นไม้ตัดสินใจส่วนบุคคลส่วนใหญ่จะเห็นเพียงองค์ประกอบแรกและสุ่มป่าจะจำแนกประเภทที่สอง .
หวังว่ามันจะให้ความเข้าใจเพิ่มเติม