เมื่อใดที่จะเข้าสู่ระบบ / ขยายตัวแปรของคุณเมื่อใช้โมเดลฟอเรสต์แบบสุ่ม?


13

ฉันกำลังถดถอยด้วยการสุ่มป่าเพื่อทำนายราคาตามคุณลักษณะหลายอย่าง โค้ดถูกเขียนเป็น Python โดยใช้ Scikit-learn

คุณจะตัดสินใจว่าคุณควรแปลงตัวแปรของคุณโดยใช้exp/ logก่อนที่จะใช้เพื่อให้พอดีกับรูปแบบการถดถอยอย่างไร จำเป็นหรือไม่เมื่อใช้วิธี Ensemble เช่น Random Forest?



3
ฉันคิดว่าสิ่งนี้แตกต่างจากคำถามนั้นเล็กน้อยเนื่องจากป่าสุ่ม / วงดนตรีทั้งหมด แต่อาจจะตั้งคำถามใหม่หลังจากดูโพสต์อื่น
Peter Flom - Reinstate Monica

@ PeterFlom คุณสามารถช่วยฉัน reword คำถามได้หรือไม่ ฉันมีความเชี่ยวชาญไม่เพียงพอในสาขานี้ :)
Nyxynyx

วิธีที่ผู้คนส่วนใหญ่ใช้คำว่า "ensemble" RF เป็นเพียง 1 อินพุตที่มีศักยภาพในชุด
Hack-R

คำตอบ:


16

วิธีการสุ่มสร้างป่านั้นไม่แปรเปลี่ยนไปจากการเปลี่ยนแปลงแบบโมโนโทนิของตัวแปรอิสระ แยกจะคล้ายคลึงกันอย่างสมบูรณ์ หากคุณเพียงต้องการความแม่นยำคุณจะไม่เห็นการปรับปรุงใด ๆ ในความเป็นจริงเนื่องจากป่าสุ่มสามารถค้นหาความซับซ้อนที่ไม่ใช่เชิงเส้น (ทำไมคุณเรียกการถดถอยเชิงเส้นนี้?) ความสัมพันธ์และการโต้ตอบของตัวแปรในทันทีหากคุณเปลี่ยนตัวแปรอิสระของคุณคุณอาจทำให้ข้อมูลเรียบง่ายขึ้น อย่างนี้

บางครั้งป่าสุ่มจะไม่ถือว่าเป็นกล่องดำและใช้สำหรับการอนุมาน ตัวอย่างเช่นคุณสามารถตีความการวัดความสำคัญของตัวแปรที่ให้ไว้หรือคำนวณผลกระทบส่วนเพิ่มของตัวแปรอิสระของคุณกับตัวแปรตาม นี่มักจะมองเห็นเป็นแปลงพึ่งพาบางส่วน ฉันค่อนข้างแน่ใจว่าสิ่งสุดท้ายนี้ได้รับอิทธิพลอย่างมากจากขนาดของตัวแปรซึ่งเป็นปัญหาเมื่อพยายามรับข้อมูลที่มีรายละเอียดมากขึ้นจากป่าสุ่ม ในกรณีนี้มันอาจช่วยให้คุณแปลงตัวแปรของคุณ (สร้างมาตรฐาน) ซึ่งอาจทำให้แปลงการพึ่งพาบางส่วนเทียบเคียง ไม่แน่ใจอย่างสมบูรณ์เกี่ยวกับเรื่องนี้จะต้องคิดเกี่ยวกับมัน

ไม่นานที่ผ่านมาฉันพยายามทำนายข้อมูลนับโดยใช้ Random Forest การถดถอยที่สแควร์รูทและบันทึกธรรมชาติของตัวแปรตามช่วยบิตไม่มากและไม่เพียงพอที่จะให้ฉันเก็บแบบจำลอง

แพคเกจบางอย่างที่คุณอาจใช้ฟอเรสต์แบบสุ่มสำหรับการอนุมาน:

https://uc-r.github.io/lime

https://cran.r-project.org/web/packages/randomForestExplainer/index.html

https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html


6

Echoing @JEquihua ความแม่นยำในการทำนายป่าแบบสุ่มจะไม่ดีขึ้น

โปรดทราบว่าหากคุณเก็บทั้งตัวพยากรณ์ดั้งเดิมและตัวแปลงที่แปลงแล้ว (เช่นในการถดถอยเชิงเส้น) คุณอาจทำให้เกิดปัญหาได้ นั่นเป็นเพราะ RF สุ่มเลือกชุดย่อยของตัวแปรเพื่อปลูกต้นไม้แต่ละต้นและคุณได้ใส่ตัวแปรที่แปลงเป็นสองเท่า ถ้ามันเป็นตัวทำนายที่แข็งแกร่งมันจะถูกนำมาใช้และป่าสุ่มของคุณจะไม่ถูกแยกออกจากกันอย่างที่ควรจะเป็นทำให้เกิดความแปรปรวนที่สูงขึ้น


1
การใส่ทั้งเครื่องทำนายผลแบบเปลี่ยนรูปและแบบไม่เปลี่ยนรูปแบบลงในแบบจำลองใด ๆถือเป็นแนวคิดที่น่ากลัว พวกมันเป็นคอลลิเออร์ที่สมบูรณ์แบบและแน่นอนว่าคุณจะยุ่งกับโมเดลของคุณไม่ว่าจะเป็นฟอเรสต์แบบสุ่มหรือการถดถอยเชิงเส้น
mkt - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.