“ ขนาดโหนด” หมายถึงอะไรในป่าสุ่ม


คำตอบ:


24

ต้นไม้การตัดสินใจทำงานโดยการแบ่งพาร์ติชันซ้ำของชุดการฝึกอบรม โหนดของต้นไม้ตัดสินใจทั้งหมดเชื่อมโยงกับชุดของจุดข้อมูลจากชุดฝึกอบรม:เสื้อnเสื้อ

n_t คือขนาดของแต่ละโหนด

คุณอาจพบพารามิเตอร์nodesizeในบางแพ็กเกจฟอเรสต์แบบสุ่มเช่นR : นี่คือขนาดโหนดต่ำสุดในตัวอย่างด้านบนขนาดโหนดต่ำสุดคือ 10 พารามิเตอร์นี้จะตั้งค่าความลึกของต้นไม้ของคุณโดยปริยาย

nodesize จากแพคเกจป่าสุ่ม R

ขนาดต่ำสุดของโหนดเทอร์มินัล การตั้งค่าหมายเลขนี้ให้ใหญ่ขึ้นทำให้ต้นไม้เล็กลง (และใช้เวลาน้อยลง) โปรดทราบว่าค่าเริ่มต้นจะแตกต่างกันสำหรับการจัดหมวดหมู่ (1) และการถดถอย (5)

ในแพ็คเกจอื่นคุณสามารถค้นหาพารามิเตอร์ได้โดยตรงdepthเช่นWEKA :

-depth จากแพคเกจป่าสุ่ม WEKA

ความลึกสูงสุดของต้นไม้ 0 ไม่ จำกัด (ค่าเริ่มต้น 0)


1
'บันทึก' คืออะไร คุณหมายถึงจุดข้อมูลหรือไม่ เหตุใดแต่ละโหนดจึงเชื่อมโยงกับชุดของระเบียน ฉันเข้าใจป่าสุ่มค่อนข้างดี แต่ฉันไม่รู้ความหมายของศัพท์แสง
wolfsatthedoor

ใช่ฉันหมายถึงจุดข้อมูล โดยปกติคุณอาจอ้างถึงจุดข้อมูลเป็นระเบียนอินสแตนซ์หรือตัวอย่าง
Simone

ดังนั้นมีกฎของขนาดโหนดขั้นต่ำหัวแม่มือเพื่อหลีกเลี่ยงต้นไม้มากเกินไป? ฉันคิดว่ามันขึ้นอยู่กับขนาดของข้อมูลการฝึกอบรมดังนั้นอาจเป็นสัดส่วนที่แน่นอนของขนาดชุดข้อมูล
Seanosapien

1
ในป่าสุ่มต้นไม้จะโตเต็มที่: ขนาดโหนดคือ 1 การหลีกเลี่ยงการปลูกมากเกินไปคือหลีกเลี่ยงการปลูกต้นไม้จำนวนมาก ในการตัดสินใจต้นไม้มันเป็นเรื่องยุ่งยากมากขึ้น ต้นไม้ยังไม่โตเต็มที่และคุณต้องทำการตัดแต่งกิ่งเพื่อหลีกเลี่ยงการทำให้อ้วนมากเกินไป
Simone

1
ดูเหมือนว่าการได้รับรางวัลคือการเลือกคุณลักษณะบางอย่างเพื่อทำให้ต้นไม้ง่ายขึ้นและหลีกเลี่ยงการทำให้อ้วนมากเกินไป ฉันคิดว่าการตัดแต่งกิ่งต้นไม้เดียวนั้นมีประโยชน์เสมอ ในบางครั้งการฝัดอาจลดความแม่นยำลง แต่ต้นไม้ก็ลดความซับซ้อนลง
Simone

2

ไม่ชัดเจนหากขนาดของโหนดอยู่ในการสุ่มตัวอย่าง "in-bag" หรือข้อผิดพลาด "out-of-bag" หากอยู่ในการสุ่มตัวอย่าง "ออกถุง" ก็จะมีข้อ จำกัด มากขึ้นเล็กน้อย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.