ป่าสุ่มแสดงการตั้งค่าการทำนายหรือไม่?


12

ฉันคิดว่านี่เป็นคำถามที่ตรงไปตรงมาแม้ว่าการให้เหตุผลว่าทำไมหรือทำไมไม่อาจเป็นเช่นนั้น เหตุผลที่ผมถามคือว่าผมได้เขียนเมื่อเร็ว ๆ นี้การดำเนินการของตัวเองของ RF และแม้ว่ามันจะมีประสิทธิภาพดีมันไม่ได้มีประสิทธิภาพค่อนข้างเช่นเดียวกับที่ผมคาดหวัง (ตามKaggle ภาพคุณภาพสูงของการทำนายการแข่งขันชุดข้อมูลที่คะแนนชนะและบางส่วนของ ข้อมูลที่ตามมาซึ่งมีเกี่ยวกับเทคนิคที่ใช้)

สิ่งแรกที่ฉันทำในสถานการณ์เช่นนี้คือข้อผิดพลาดในการทำนายพล็อตสำหรับแบบจำลองของฉันดังนั้นสำหรับแต่ละค่าการทำนายที่กำหนดฉันจะกำหนดความลำเอียงเฉลี่ย (หรือส่วนเบี่ยงเบน) จากค่าเป้าหมายที่ถูกต้อง สำหรับ RF ของฉันฉันได้พล็อตนี้:

ค่าการทำนายกับอคติจากมูลค่าเป้าหมายที่ถูกต้อง

ฉันสงสัยว่านี่เป็นรูปแบบความเอนเอียงที่สังเกตได้โดยทั่วไปสำหรับ RF หรือไม่หากเป็นเช่นนั้นอาจเป็นสิ่งที่เฉพาะเจาะจงกับชุดข้อมูลและ / หรือการนำไปใช้ของฉัน แน่นอนว่าฉันสามารถใช้พล็อตนี้เพื่อปรับปรุงการทำนายได้โดยใช้มันเพื่อชดเชยอคติ แต่ฉันสงสัยว่ามีข้อผิดพลาดพื้นฐานหรือข้อบกพร่องในโมเดล RF ที่ต้องการแก้ไขปัญหาหรือไม่ ขอบคุณ.

== ADDENDUM ==

การตรวจสอบเบื้องต้นของฉันอยู่ที่บล็อกนี้Random Forest Bias - Update


2
มันอาจเป็นคุณสมบัติของข้อมูลของคุณ คุณได้ลองใช้การใช้งาน RF อื่น ๆ ในชุดข้อมูลเดียวกันเพื่อดูว่ามันสร้างผลกระทบนี้หรือไม่?

คำตอบ:


4

(ฉันยังห่างไกลจากผู้เชี่ยวชาญนี่เป็นเพียง musings จากนักสถิติรุ่นเยาว์ที่จัดการกับปัญหาที่แตกต่างกัน แต่คล้ายคลึงกันอย่างหลวม ๆ คำตอบของฉันอาจไม่ตรงกับบริบท)

ให้ตัวอย่างใหม่ที่จะคาดการณ์และพยากรณ์ที่เข้าถึงชุดฝึกอบรมที่มีขนาดใหญ่กว่านั้นอาจจะ "ดีที่สุด" และการคาดการณ์ที่ซื่อสัตย์ที่สุดคือการพูดว่า "ฉันทำนายด้วยความน่าจะเป็น 60% ที่นี่อยู่ในชั้นเรียนสีแดงมากกว่า ชั้นฟ้า "

ฉันจะยกตัวอย่างที่เป็นรูปธรรมมากขึ้น ลองนึกภาพว่าในชุดฝึกอบรมที่มีขนาดใหญ่มากของเรามีกลุ่มตัวอย่างจำนวนมากที่คล้ายกับตัวอย่างใหม่ของเรา ในจำนวนนี้ 60% เป็นสีน้ำเงินและ 40% เป็นสีแดง และดูเหมือนจะไม่มีอะไรที่จะแยกความแตกต่างของบลูส์จากสีแดง ในกรณีเช่นนี้เห็นได้ชัดว่า 60% / 40% เป็นคำทำนายเดียวที่คนมีสติสามารถทำได้

แน่นอนว่าเราไม่มี oracle ดังกล่าวแทนที่จะมีต้นไม้มากมาย ต้นไม้ตัดสินใจง่าย ๆ ไม่สามารถทำการพยากรณ์ได้ 60% / 40% ดังนั้นต้นไม้แต่ละต้นจะทำการทำนายแบบแยกกัน (สีแดงหรือสีน้ำเงินไม่มีสิ่งใดในระหว่างนั้น) เนื่องจากตัวอย่างใหม่นี้อยู่ที่ด้านสีแดงของพื้นผิวการตัดสินใจคุณจะพบว่าต้นไม้เกือบทั้งหมดทำนายสีแดงมากกว่าสีน้ำเงิน ต้นไม้แต่ละต้นจะมีความมั่นใจมากกว่านั้นและจะเริ่มแตกตื่นไปสู่การทำนายที่ลำเอียง

ปัญหาคือเรามักจะตีความการตัดสินใจผิดพลาดจากต้นไม้ต้นเดียว เมื่อต้นไม้หนึ่งต้นใส่โหนดในคลาสสีแดงเราไม่ควรตีความว่าเป็นการทำนายแบบ 100% / 0% จากต้นไม้ (ฉันไม่เพียงแค่บอกว่าเรารู้ว่ามันอาจเป็นการคาดการณ์ที่ไม่ดีฉันกำลังพูดอะไรที่แข็งแกร่งกว่านั่นคือเราควรระวังเราตีความว่าเป็นคำทำนายของต้นไม้) ฉันไม่สามารถขยายวิธีการแก้ไขปัญหานี้ได้อย่างกระชับ แต่เป็นไปได้ที่จะยืมความคิดจากพื้นที่ของสถิติเกี่ยวกับวิธีการสร้าง 'ฟัสซี' ที่แยกกันภายในต้นไม้เพื่อกระตุ้นให้ต้นไม้ต้นเดียวซื่อสัตย์ต่อความไม่แน่นอนของมันมากขึ้น จากนั้นจึงเป็นไปได้ที่จะคาดคะเนค่าเฉลี่ยการทำนายจากป่าต้นไม้

ฉันหวังว่านี่จะช่วยได้เพียงเล็กน้อย ถ้าไม่ฉันหวังว่าจะเรียนรู้จากคำตอบใด ๆ


การแยกแบบฟัซซี่ได้รับในจิตวิญญาณของ RF ที่รุนแรง (แต่อาจจะไม่มากนัก?) ฉันจะลองสิ่งนี้เนื่องจากคำอธิบายของคุณสมเหตุสมผลสำหรับฉัน ขอบคุณ
redcalx

[ป่าสุ่ม - ความคิดเกี่ยวกับปัญหาอคติ] ( the-locster.livejournal.com/134241.html ) "กุญแจสำคัญในตอนนั้น (ฉันคิดว่า) คือการใช้การสุ่มแบบไม่สม่ำเสมอ คะแนนแยกเมื่อรวมกันจะสร้าง y = f (x) และเข้าใกล้การแสดงที่สมบูรณ์แบบของ y = f (x) เมื่อจำนวนของ DTs ใน RF มีแนวโน้มที่จะไม่มีที่สิ้นสุด "
redcalx

ต้นไม้คาดการณ์ 60/40% จะไม่ถูกจัดการโดยต้นไม้ถดถอยหรือไม่? ความมั่นใจในอัตราส่วนชั้นเรียนในพาร์ติชั่นใบไม้ (สำหรับชุดฝึกอบรม) บางทีนี่อาจเป็น / สามารถถูกขยายเพื่อจัดการกับพลังทางสถิติได้เช่นกัน
เปลี่ยน

3

ใช่. ต้นไม้ส่วนใหญ่มีอคติในหาง ดู:

ต้นไม้การตัดสินใจแยกควรนำไปใช้อย่างไรเมื่อทำนายตัวแปรต่อเนื่อง

"หนึ่งในปัญหาที่อาจเกิดขึ้นกับต้นไม้ก็คือพวกมันมีแนวโน้มที่จะเข้ากับหางไม่ดีลองนึกถึงโหนดเทอร์มินัลที่จับชุดการฝึกในระดับต่ำมันจะทำนายโดยใช้ค่าเฉลี่ยของคะแนนชุดฝึกอบรม ผลลัพธ์ (เนื่องจากเป็นค่าเฉลี่ย) "


ฉันไม่คิดว่าความคิดเห็นที่ใช้กับป่าสุ่ม
Zach

ฉันเชื่อว่าการใช้การอ้างอิงของฟอเรสต์แบบสุ่มหยุดด้วยการสังเกต 5 ~ ในโหนดเมื่อตัวแปรตอบสนองต่อเนื่อง นั่นจะยังคงแนะนำอคติเล็กน้อยหากตัวแปรการแยกนั้นต่อเนื่องเช่นกัน คล้ายกับสาเหตุที่มักจะดูดีกว่าค่าเฉลี่ยเคลื่อนที่เป็นศูนย์กลางที่ขอบของการสนับสนุน ...
Shea Parkes
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.