มีคุณสมบัติกี่ตัวอย่างในการใช้ป่าสุ่ม


14

หน้าวิกิพีเดียซึ่งคำพูด"องค์ประกอบของการเรียนรู้ทางสถิติ"พูดว่า:

โดยปกติแล้วสำหรับปัญหาการจัดหมวดหมู่ที่มีคุณสมบัติp คุณลักษณะ pถูกใช้ในการแบ่งแต่ละครั้งp

ฉันเข้าใจว่านี่เป็นการคาดเดาที่มีการศึกษาค่อนข้างดีและอาจได้รับการยืนยันจากหลักฐานเชิงประจักษ์ แต่มีเหตุผลอื่นที่ทำให้เราเลือกรากที่สองได้หรือไม่ มีปรากฏการณ์ทางสถิติเกิดขึ้นที่นั่นไหม?

นี่ช่วยลดความแปรปรวนของข้อผิดพลาดได้หรือไม่?

สิ่งนี้เป็นสิ่งเดียวกันสำหรับการถดถอยและการจัดหมวดหมู่หรือไม่

คำตอบ:


17

ฉันคิดว่าในเอกสารต้นฉบับที่พวกเขาแนะนำให้ใช้ ) แต่วิธีคิดมีดังนี้:log2(N+1

จำนวนของคุณสมบัติที่เลือกแบบสุ่มสามารถมีอิทธิพลต่อข้อผิดพลาดการวางนัยได้สองวิธี: การเลือกคุณลักษณะหลายอย่างเพิ่มความแข็งแกร่งของต้นไม้แต่ละต้นในขณะที่การลดจำนวนของคุณลักษณะจะนำไปสู่ความสัมพันธ์ที่ลดลงในหมู่ต้นไม้

สิ่งที่น่าสนใจคือผู้เขียนของRandom ป่า (pdf) พบความแตกต่างเชิงประจักษ์ระหว่างการจำแนกและการถดถอย:

ความแตกต่างที่น่าสนใจระหว่างการถดถอยและการจัดหมวดหมู่ก็คือความสัมพันธ์เพิ่มขึ้นค่อนข้างช้าเมื่อจำนวนคุณลักษณะที่ใช้เพิ่มขึ้น

N/3N

NlogN

ช่วงที่อยู่ระหว่างนั้นมักมีขนาดใหญ่ ในช่วงนี้เมื่อจำนวนคุณลักษณะเพิ่มขึ้นความสัมพันธ์ก็เพิ่มขึ้น แต่ PE * (ต้นไม้) จะชดเชยโดยการลดลง

(PE * เป็นข้อผิดพลาดทั่วไป)

อย่างที่พวกเขาพูดในองค์ประกอบของการเรียนรู้ทางสถิติ:

ในทางปฏิบัติค่าที่ดีที่สุดสำหรับพารามิเตอร์เหล่านี้จะขึ้นอยู่กับปัญหาและควรถือว่าเป็นพารามิเตอร์การปรับ

สิ่งหนึ่งที่ปัญหาของคุณขึ้นอยู่กับจำนวนตัวแปรที่จัดหมวดหมู่ หากคุณมีตัวแปรเด็ดขาดมากมายที่ถูกเข้ารหัสเป็นตัวแปรจำลองมันมักจะเหมาะสมที่จะเพิ่มพารามิเตอร์ อีกครั้งจากกระดาษป่าสุ่ม:

int(log2M+1)


ขอบคุณนั่นเป็นคำตอบที่มีประโยชน์มาก อันที่จริงฉันคิดว่ามีบางอย่างเกี่ยวกับความแข็งแกร่งของต้นไม้แต่ละต้นเทียบกับความแข็งแกร่งของป่าโดยรวม และน่าสนใจมากที่มีความแตกต่างระหว่างการถดถอยและการจำแนก ขอบคุณมากที่เชื่อมโยงเอกสารต้นฉบับ เคยพยายามรวบรวมเอกสารดังกล่าวด้วยเทคนิคมากมาย
Valentin Calomme
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.