จะไม่มีตัวแปรที่มีความสัมพันธ์สูงในความแม่นยำของการบิดเบือนป่าและการเลือกคุณลักษณะหรือไม่


32

ในความเข้าใจของฉันตัวแปรที่มีความสัมพันธ์สูงจะไม่ทำให้เกิดปัญหาความหลากหลายในรูปแบบฟอเรสต์แบบสุ่ม (โปรดแก้ไขฉันหากฉันผิด) อย่างไรก็ตามในทางกลับกันถ้าฉันมีตัวแปรมากเกินไปที่มีข้อมูลที่คล้ายกันโมเดลน้ำหนักจะมากเกินไปในเซตนี้หรือไม่

ตัวอย่างเช่นมีชุดข้อมูลสองชุด (A, B) ที่มีพลังการทำนายเท่ากัน ตัวแปร , X 2 , ... X 1000ทั้งหมดมีข้อมูล A และมีเพียง Y เท่านั้นที่มีข้อมูล B เมื่อสุ่มตัวอย่างตัวแปรต้นไม้ส่วนใหญ่จะเติบโตบนข้อมูล A และเป็นผลให้ข้อมูล B ไม่ได้รับการบันทึกอย่างสมบูรณ์หรือไม่X1X2X1000

คำตอบ:


19

ถูกต้อง แต่ในตัวอย่างย่อยส่วนใหญ่ที่มีตัวแปร Y พร้อมใช้งานมันจะทำให้เกิดการแยกที่ดีที่สุด

คุณอาจลองเพิ่ม mtry เพื่อให้แน่ใจว่าสิ่งนี้จะเกิดขึ้นบ่อยขึ้น

คุณอาจลองทำการตัดความสัมพันธ์แบบเรียกซ้ำแบบซ้ำซึ่งเป็นการลบตัวแปรตัวใดตัวหนึ่งจากสองตัวที่มีความสัมพันธ์กันมากที่สุด เกณฑ์ที่สมเหตุสมผลเพื่อหยุดการตัดนี้อาจเป็นได้ว่าคู่ของความสัมพันธ์ใด ๆ (เพียร์สัน) ต่ำกว่าR2<0.7

คุณอาจลองตัดความสำคัญของตัวแปรแบบเรียกซ้ำซึ่งจะเป็นการลบเช่น 20% ที่มีความสำคัญของตัวแปรต่ำที่สุด ลองเช่น rfcv จากแพ็คเกจสุ่มป่าไม้

คุณอาจลองการสลายตัว / การรวมตัวของตัวแปรซ้ำซ้อนของคุณ


3
ในบางแหล่งฉันเห็นmulticollinearityว่าไม่มีผลกระทบกับโมเดลฟอเรสต์แบบสุ่ม ตัวอย่างเช่นที่นี่คำตอบที่ถูกโหวตมากที่สุดกล่าวว่า "ไม่มีส่วนใดของโมเดลฟอเรสต์แบบสุ่มที่ได้รับอันตรายจากตัวแปร collinear สูง" สิ่งนี้มีความถูกต้องหรือไม่?
Hunle

5
ฉันคิดว่าคุณกำลังอ่าน NO ตัวอักษรเกินไป แบบจำลอง RF จัดการกับตัวแปรที่มีความสัมพันธ์ / ซ้ำซ้อนค่อนข้างดีใช่ แต่นั่นไม่ได้หมายความว่าแบบจำลองของคุณจำเป็นต้องได้รับประโยชน์จากการสะสมตัวแปรที่ไม่เกี่ยวข้องหรือซ้ำซ้อนอย่างสมบูรณ์ (เช่นการรวมตัวกันอีกครั้งเชิงเส้น) มันไม่ได้ผิดพลาดเช่นกัน ฉันสนับสนุนการเลือกตัวแปรเพียงเล็กน้อยเท่านั้นเพื่อคาดหวังว่าการปรับปรุงประสิทธิภาพของโมเดลที่ผ่านการตรวจสอบความถูกต้องจะเล็กน้อย
Soren Havelund Welling

24

เธรดเก่า แต่ฉันไม่เห็นด้วยกับคำสั่งแบบครอบคลุมว่า collinearity ไม่ใช่ปัญหากับโมเดลฟอเรสต์แบบสุ่ม เมื่อชุดข้อมูลมีคุณสมบัติสองอย่างที่มีความสัมพันธ์กัน (หรือมากกว่า) จากมุมมองของแบบจำลองคุณลักษณะใด ๆ ที่สัมพันธ์กันเหล่านี้สามารถใช้เป็นตัวทำนายได้

อย่างไรก็ตามเมื่อใช้หนึ่งในนั้นความสำคัญของผู้อื่นจะลดลงอย่างมีนัยสำคัญเนื่องจากประสิทธิภาพที่บริสุทธิ์ที่พวกเขาสามารถกำจัดได้ถูกลบออกไปแล้วโดยคุณสมบัติแรก

ผลก็คือพวกเขาจะมีความสำคัญในการรายงานที่ต่ำกว่า นี่ไม่ใช่ปัญหาเมื่อเราต้องการใช้การเลือกคุณสมบัติเพื่อลดการ overfitting เนื่องจากเหมาะสมที่จะลบคุณลักษณะที่ส่วนใหญ่ทำซ้ำโดยคุณสมบัติอื่น ๆ แต่เมื่อตีความข้อมูลมันอาจนำไปสู่ข้อสรุปที่ไม่ถูกต้องว่าหนึ่งในตัวแปรนั้นคือ ตัวพยากรณ์ที่แข็งแกร่งในขณะที่คนอื่น ๆ ในกลุ่มเดียวกันนั้นไม่สำคัญ แต่จริงๆแล้วพวกเขามีความสัมพันธ์ใกล้ชิดกับตัวแปรตอบสนองมาก

ผลของปรากฏการณ์นี้จะลดลงเนื่องจากการเลือกคุณสมบัติแบบสุ่มในการสร้างแต่ละโหนด แต่โดยทั่วไปแล้วเอฟเฟกต์จะไม่ถูกลบออกอย่างสมบูรณ์

ข้างต้นส่วนใหญ่ cribbed จากที่นี่: การเลือกคุณสมบัติที่ดี


3
นี่เป็นบทความของฉันในการเลือกคุณลักษณะด้วย RF เนื่องจากความสำคัญของตัวแปรมักถูกใช้เป็นตัวชี้วัดbmcbioinformatics.biomedcentral.com/articles/10.1186/… ตั้งแต่สองปีที่แล้ว - การประเมินถ้าไม่ได้ทำภายในลูปการตรวจสอบความถูกต้องภายนอก หากทำอย่างถูกต้องฉันมักจะไม่เห็นการเพิ่มประสิทธิภาพของการทำนายเล็กน้อย ตอนนี้ฉันส่วนใหญ่ใช้การเลือกคุณสมบัติเพื่อลดความซับซ้อนของเครื่องทำนายในการผลิตหรือเพื่อให้รุ่นสุดท้ายมีความโปร่งใสมากขึ้น
Soren Havelund Welling

@SorenHavelundWelling - คุณบอกว่า "การเลือกคุณสมบัติให้ผลการตรวจสอบข้ามมากเกินไปหากไม่ได้ทำภายในลูปการตรวจสอบข้ามภายนอกที่เหมาะสม" คุณสามารถอธิบายสิ่งนั้นหรืออ้างอิงถึงแหล่งที่มาของคำอธิบายนั้นได้หรือไม่? มันขัดแย้งกับทุกสิ่งที่ฉันอ่านมาจนถึงตอนนี้ ...
แจ็คฟลีตติ้ง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.