สิ่งที่ควรเป็นพารามิเตอร์ที่ดีที่สุดสำหรับลักษณนามป่าสุ่ม?


14

ขณะนี้ฉันกำลังใช้กล่องเครื่องมือ RF บน MATLAB สำหรับปัญหาการจำแนกเลขฐานสอง

ชุดข้อมูล: ตัวอย่าง 50,000 ตัวอย่างและคุณสมบัติมากกว่า 250 รายการ

ดังนั้นควรมีจำนวนต้นไม้และคุณลักษณะที่เลือกแบบสุ่มในแต่ละแยกเพื่อปลูกต้นไม้อย่างไร พารามิเตอร์อื่นใดสามารถส่งผลอย่างมากต่อผลลัพธ์หรือไม่

คำตอบ:


8

เลือกต้นไม้จำนวนมากพูด 100 จากสิ่งที่ฉันได้อ่านบนอินเทอร์เน็ตให้เลือกคุณสมบัติที่เลือกแบบสุ่ม อย่างไรก็ตามในกระดาษต้นฉบับBreiman ใช้จำนวนเต็มใกล้เคียงที่สุดในการเข้าสู่ระบบM250 2logMlog2

ฉันจะบอกว่าการตรวจสอบข้ามเป็นกุญแจสำคัญในการค้นหาพารามิเตอร์ที่ดีที่สุด แต่ฉันไม่รู้เกี่ยวกับฟอเรสต์แบบสุ่ม


1+log2M

ขอบคุณฉันได้อัพเดทลิงค์ ตอนนี้ตรงไปที่เบิร์กลีย์
Wok

12

จำนวนต้นไม้ที่ใหญ่กว่าดีกว่า คุณแทบจะไม่สามารถใช้เกินพารามิเตอร์นี้ได้ แต่แน่นอนว่าขีด จำกัด สูงสุดขึ้นอยู่กับเวลาการคำนวณที่คุณต้องการใช้กับ RF
ความคิดที่ดีคือการสร้างฟอเรสต์ยาวก่อนจากนั้นดู (ฉันหวังว่ามันจะมีให้ในการนำ MATLAB ไปใช้) เมื่อความแม่นยำของ OOB มาบรรจบกัน

จำนวนของคุณลักษณะที่ลองใช้ค่าเริ่มต้นคือรากที่สองของจำนวนคุณลักษณะทั้งหมด แต่โดยทั่วไปฟอเรสต์ไม่ได้มีความอ่อนไหวมากเกี่ยวกับค่าของพารามิเตอร์นี้ - ในความเป็นจริงมันไม่ค่อยได้รับการปรับให้เหมาะสมที่สุดโดยเฉพาะอย่างยิ่ง


7

จำนวนต้นไม้ที่ใหญ่กว่าดีกว่า: ตกลง

จำนวนแอตทริบิวต์ที่ลองใช้จะขึ้นอยู่กับ หากคุณมีข้อมูลเบื้องต้นเกี่ยวกับวิธีการกระจายข้อมูลหรือไม่อยู่ในฟีเจอร์ หากมีการแบ่งปันข้อมูลด้วยฟีเจอร์มากมายผลลัพธ์ที่ดีกว่าก็น่าจะมาพร้อมกับค่าที่น้อยกว่าของพารามิเตอร์นั้น ในทางกลับกันหากมีเพียงไม่กี่คุณสมบัติเท่านั้นที่กำลังนำข้อมูลคุณควรใช้ค่าที่มากขึ้น กล่าวอีกนัยหนึ่งด้วยตัวแปรที่เกี่ยวข้อง: ค่าที่น้อยกว่าดีกว่าและมีตัวแปรที่ไม่เกี่ยวข้องจำนวนมาก: ค่าที่ใหญ่กว่าดีกว่า


1
ในขณะที่การเรียกร้องของคุณเกี่ยวกับจำนวนของคุณลักษณะที่พยายามทำมีเหตุผลคุณมีการอ้างอิงสำหรับสิ่งนี้หรือไม่?
James Owers

ฉันอยากจะแนะนำให้อ่านวิทยานิพนธ์นี้: github.com/glouppe/phd-thesis เช่นเดียวกับที่นี่: orbi.ulg.ac.be/handle/2268/25737
0asa
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.