ทุกอย่างอยู่ในชื่อใช้การเลือกคุณสมบัติก่อนใช้ป่าสุ่มหรือไม่
ทุกอย่างอยู่ในชื่อใช้การเลือกคุณสมบัติก่อนใช้ป่าสุ่มหรือไม่
คำตอบ:
ใช่มันเป็นและมันค่อนข้างบ่อย หากคุณคาดหวังมากกว่า ~ 50% ของคุณสมบัติของคุณไม่ได้ซ้ำซ้อน แต่ไร้ประโยชน์อย่างเต็มที่ เช่นแพคเกจ randomForest มีฟังก์ชั่น wrapper rfcv () ซึ่งจะฝึกหัด randomForest และละเว้นตัวแปรที่สำคัญที่สุด ฟังก์ชั่น rfcv อ้างถึงบทนี้ อย่าลืมฝังการเลือกคุณสมบัติ + การสร้างแบบจำลองในลูปการตรวจสอบความถูกต้องภายนอกเพื่อหลีกเลี่ยงผลลัพธ์ในแง่ดี
[แก้ไขด้านล่าง]
ฉันสามารถกลั่นกรอง "ไร้ประโยชน์อย่างเต็มที่" ป่าสุ่มเดียวมักจะไม่เป็นเช่นการถดถอยด้วยการทำให้เป็นมาตรฐานปกติอย่างสมบูรณ์ไม่สนใจคุณสมบัติถึงแม้ว่าสิ่งเหล่านี้ (ในการจำลองเหตุการณ์ย้อนหลัง) เป็นคุณลักษณะแบบสุ่ม แผนภูมิการตัดสินใจแยกตามคุณลักษณะถูกเลือกโดยเกณฑ์ในแต่ละโหนดในพันโหนดใด ๆ หรือหลายล้านโหนดและไม่สามารถยกเลิกได้ในภายหลัง ฉันไม่สนับสนุนการตัดคุณสมบัติให้เหลือเพียงการเลือกที่ยอดเยี่ยม แต่เป็นไปได้สำหรับชุดข้อมูลบางอย่างที่สามารถเพิ่มประสิทธิภาพการทำนายได้อย่างมาก (ประเมินโดยการตรวจสอบความถูกต้องจากภายนอกซ้ำ ๆ) โดยใช้การเลือกตัวแปรนี้ การค้นพบโดยทั่วไปคือการรักษาคุณสมบัติ 100% หรือใช้งานได้ดีเพียงไม่กี่เปอร์เซ็นต์เท่านั้นและจากนั้นอาจมีช่วงกลางกว้างที่มีประสิทธิภาพการทำนายที่คล้ายกัน
บางทีอาจจะเป็นกฎง่ายๆที่เหมาะสม: เมื่อหนึ่งคาดหวังว่าเชือกเหมือนกูจะทำหน้าที่ได้ดีกว่าสันเขาเหมือนกูสำหรับปัญหาที่กำหนดจากนั้นหนึ่งอาจจะลองก่อนการฝึกอบรมป่าสุ่มและตำแหน่งคุณสมบัติโดยภายในออกจากถุง ความสำคัญของตัวแปรที่ผ่านการตรวจสอบความถูกต้องและลองวางคุณสมบัติที่สำคัญน้อยที่สุด ความสำคัญของตัวแปรจะคำนวณปริมาณของการทำนายแบบจำลองที่ผ่านการตรวจสอบความถูกต้องที่ลดลงเมื่อคุณลักษณะที่ได้รับอนุญาต (ค่าสับ) หลังจากการฝึกอบรมก่อนการทำนาย จะไม่มีใครแน่ใจว่าจะมีหนึ่งคุณลักษณะเฉพาะหรือไม่ แต่ก็น่าจะง่ายกว่าที่จะคาดการณ์จากคุณสมบัติ 5% อันดับต้นกว่า 5% ด้านล่าง
จากมุมมองของภาคปฏิบัติเวลาทำงานของคอมพิวเตอร์อาจลดลงและทรัพยากรบางอย่างอาจถูกบันทึกหากมีต้นทุนการซื้อคงที่ต่อคุณลักษณะ