ตัวแปรอินพุตของฉันมีมิติที่แตกต่างกัน ตัวแปรบางตัวเป็นทศนิยมในขณะที่บางส่วนมีหลายร้อย จำเป็นหรือไม่ที่จะจัดกึ่งกลาง (ลบค่าเฉลี่ย) หรือมาตราส่วน (หารด้วยส่วนเบี่ยงเบนมาตรฐาน) ตัวแปรอินพุตเหล่านี้เพื่อทำให้ข้อมูลไม่มีมิติเมื่อใช้ฟอเรสต์แบบสุ่ม
ตัวแปรอินพุตของฉันมีมิติที่แตกต่างกัน ตัวแปรบางตัวเป็นทศนิยมในขณะที่บางส่วนมีหลายร้อย จำเป็นหรือไม่ที่จะจัดกึ่งกลาง (ลบค่าเฉลี่ย) หรือมาตราส่วน (หารด้วยส่วนเบี่ยงเบนมาตรฐาน) ตัวแปรอินพุตเหล่านี้เพื่อทำให้ข้อมูลไม่มีมิติเมื่อใช้ฟอเรสต์แบบสุ่ม
คำตอบ:
เลขที่
ป่าสุ่มขึ้นอยู่กับอัลกอริทึมการแบ่งต้นไม้
ดังนั้นจึงไม่มีอะนาล็อกให้กับสัมประสิทธิ์ที่ได้รับในกลยุทธ์การถดถอยทั่วไปซึ่งจะขึ้นอยู่กับหน่วยของตัวแปรอิสระ แต่จะได้รับกฎของพาร์ติชันแทนโดยทั่วไปแล้วการตัดสินใจจะให้เกณฑ์และสิ่งนี้ไม่ควรเปลี่ยนด้วยการปรับสเกล กล่าวอีกนัยหนึ่งต้นไม้เห็นอันดับในคุณลักษณะเท่านั้น
โดยทั่วไปการแปลงข้อมูลของคุณแบบ monotonic ไม่ควรเปลี่ยนฟอเรสต์เลย (ในการใช้งานทั่วไป)
นอกจากนี้ต้นไม้การตัดสินใจมักมีความทนทานต่อความไม่แน่นอนเชิงตัวเลขซึ่งบางครั้งทำให้การลู่เข้าและความแม่นยำในอัลกอริทึมอื่นด้อยลง
โดยรวมฉันเห็นด้วยกับ Firebug แต่อาจมีค่าบางอย่างในการทำให้ตัวแปรของคุณเป็นมาตรฐานหากคุณสนใจคะแนนความสำคัญของผู้ทำนาย RF จะมีแนวโน้มที่จะสนับสนุนการทำนายอย่างต่อเนื่องที่ผันแปรสูงเนื่องจากมีโอกาสมากขึ้นในการแบ่งข้อมูล อย่างไรก็ตามวิธีที่ดีกว่าในการจัดการกับปัญหานี้คือการใช้วิธีการเฉพาะ (เช่นการสุ่มตัวอย่างโดยไม่มีการทดแทนโดยใช้ป่าที่มีเงื่อนไข) ซึ่งมีความทนทานต่ออคตินี้มากกว่า ดูhttps://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25