ฉันคิดว่านี่เป็นคำถามที่ตรงไปตรงมาแม้ว่าการให้เหตุผลว่าทำไมหรือทำไมไม่อาจเป็นเช่นนั้น เหตุผลที่ผมถามคือว่าผมได้เขียนเมื่อเร็ว ๆ นี้การดำเนินการของตัวเองของ RF และแม้ว่ามันจะมีประสิทธิภาพดีมันไม่ได้มีประสิทธิภาพค่อนข้างเช่นเดียวกับที่ผมคาดหวัง (ตามKaggle ภาพคุณภาพสูงของการทำนายการแข่งขันชุดข้อมูลที่คะแนนชนะและบางส่วนของ ข้อมูลที่ตามมาซึ่งมีเกี่ยวกับเทคนิคที่ใช้)
สิ่งแรกที่ฉันทำในสถานการณ์เช่นนี้คือข้อผิดพลาดในการทำนายพล็อตสำหรับแบบจำลองของฉันดังนั้นสำหรับแต่ละค่าการทำนายที่กำหนดฉันจะกำหนดความลำเอียงเฉลี่ย (หรือส่วนเบี่ยงเบน) จากค่าเป้าหมายที่ถูกต้อง สำหรับ RF ของฉันฉันได้พล็อตนี้:
ฉันสงสัยว่านี่เป็นรูปแบบความเอนเอียงที่สังเกตได้โดยทั่วไปสำหรับ RF หรือไม่หากเป็นเช่นนั้นอาจเป็นสิ่งที่เฉพาะเจาะจงกับชุดข้อมูลและ / หรือการนำไปใช้ของฉัน แน่นอนว่าฉันสามารถใช้พล็อตนี้เพื่อปรับปรุงการทำนายได้โดยใช้มันเพื่อชดเชยอคติ แต่ฉันสงสัยว่ามีข้อผิดพลาดพื้นฐานหรือข้อบกพร่องในโมเดล RF ที่ต้องการแก้ไขปัญหาหรือไม่ ขอบคุณ.
== ADDENDUM ==
การตรวจสอบเบื้องต้นของฉันอยู่ที่บล็อกนี้Random Forest Bias - Update