ฟอเรสต์แบบสุ่มจำเป็นต้องปรับขนาดตัวแปรอินพุตหรือให้อยู่กึ่งกลางหรือไม่


16

ตัวแปรอินพุตของฉันมีมิติที่แตกต่างกัน ตัวแปรบางตัวเป็นทศนิยมในขณะที่บางส่วนมีหลายร้อย จำเป็นหรือไม่ที่จะจัดกึ่งกลาง (ลบค่าเฉลี่ย) หรือมาตราส่วน (หารด้วยส่วนเบี่ยงเบนมาตรฐาน) ตัวแปรอินพุตเหล่านี้เพื่อทำให้ข้อมูลไม่มีมิติเมื่อใช้ฟอเรสต์แบบสุ่ม

คำตอบ:


30

เลขที่

ป่าสุ่มขึ้นอยู่กับอัลกอริทึมการแบ่งต้นไม้

ดังนั้นจึงไม่มีอะนาล็อกให้กับสัมประสิทธิ์ที่ได้รับในกลยุทธ์การถดถอยทั่วไปซึ่งจะขึ้นอยู่กับหน่วยของตัวแปรอิสระ แต่จะได้รับกฎของพาร์ติชันแทนโดยทั่วไปแล้วการตัดสินใจจะให้เกณฑ์และสิ่งนี้ไม่ควรเปลี่ยนด้วยการปรับสเกล กล่าวอีกนัยหนึ่งต้นไม้เห็นอันดับในคุณลักษณะเท่านั้น

โดยทั่วไปการแปลงข้อมูลของคุณแบบ monotonic ไม่ควรเปลี่ยนฟอเรสต์เลย (ในการใช้งานทั่วไป)

นอกจากนี้ต้นไม้การตัดสินใจมักมีความทนทานต่อความไม่แน่นอนเชิงตัวเลขซึ่งบางครั้งทำให้การลู่เข้าและความแม่นยำในอัลกอริทึมอื่นด้อยลง


0

โดยรวมฉันเห็นด้วยกับ Firebug แต่อาจมีค่าบางอย่างในการทำให้ตัวแปรของคุณเป็นมาตรฐานหากคุณสนใจคะแนนความสำคัญของผู้ทำนาย RF จะมีแนวโน้มที่จะสนับสนุนการทำนายอย่างต่อเนื่องที่ผันแปรสูงเนื่องจากมีโอกาสมากขึ้นในการแบ่งข้อมูล อย่างไรก็ตามวิธีที่ดีกว่าในการจัดการกับปัญหานี้คือการใช้วิธีการเฉพาะ (เช่นการสุ่มตัวอย่างโดยไม่มีการทดแทนโดยใช้ป่าที่มีเงื่อนไข) ซึ่งมีความทนทานต่ออคตินี้มากกว่า ดูhttps://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25


1
ยินดีต้อนรับสู่เว็บไซต์ เราพยายามสร้างที่เก็บถาวรของข้อมูลสถิติคุณภาพสูงในรูปแบบของคำถาม & คำตอบ ดังนั้นเราจึงต้องระวังคำตอบเฉพาะลิงก์เนื่องจาก linkrot คุณสามารถโพสต์การอ้างอิงแบบเต็ม & สรุปข้อมูลที่ลิงค์ในกรณีที่มันจะตาย?
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.