ฉันคิดว่าในเอกสารต้นฉบับที่พวกเขาแนะนำให้ใช้ ) แต่วิธีคิดมีดังนี้:log2(N+1
จำนวนของคุณสมบัติที่เลือกแบบสุ่มสามารถมีอิทธิพลต่อข้อผิดพลาดการวางนัยได้สองวิธี: การเลือกคุณลักษณะหลายอย่างเพิ่มความแข็งแกร่งของต้นไม้แต่ละต้นในขณะที่การลดจำนวนของคุณลักษณะจะนำไปสู่ความสัมพันธ์ที่ลดลงในหมู่ต้นไม้
สิ่งที่น่าสนใจคือผู้เขียนของRandom ป่า (pdf) พบความแตกต่างเชิงประจักษ์ระหว่างการจำแนกและการถดถอย:
ความแตกต่างที่น่าสนใจระหว่างการถดถอยและการจัดหมวดหมู่ก็คือความสัมพันธ์เพิ่มขึ้นค่อนข้างช้าเมื่อจำนวนคุณลักษณะที่ใช้เพิ่มขึ้น
N/3N−−√
N−−√logN
ช่วงที่อยู่ระหว่างนั้นมักมีขนาดใหญ่ ในช่วงนี้เมื่อจำนวนคุณลักษณะเพิ่มขึ้นความสัมพันธ์ก็เพิ่มขึ้น แต่ PE * (ต้นไม้) จะชดเชยโดยการลดลง
(PE * เป็นข้อผิดพลาดทั่วไป)
อย่างที่พวกเขาพูดในองค์ประกอบของการเรียนรู้ทางสถิติ:
ในทางปฏิบัติค่าที่ดีที่สุดสำหรับพารามิเตอร์เหล่านี้จะขึ้นอยู่กับปัญหาและควรถือว่าเป็นพารามิเตอร์การปรับ
สิ่งหนึ่งที่ปัญหาของคุณขึ้นอยู่กับจำนวนตัวแปรที่จัดหมวดหมู่ หากคุณมีตัวแปรเด็ดขาดมากมายที่ถูกเข้ารหัสเป็นตัวแปรจำลองมันมักจะเหมาะสมที่จะเพิ่มพารามิเตอร์ อีกครั้งจากกระดาษป่าสุ่ม:
int(log2M+1)