ต้นไม้การตัดสินใจและการถดถอย - ค่าที่ทำนายได้นั้นอาจอยู่นอกช่วงของข้อมูลการฝึกอบรมหรือไม่?


11

เมื่อพูดถึงต้นไม้ตัดสินใจค่าที่ทำนายได้จะอยู่นอกขอบเขตของข้อมูลการฝึกอบรมหรือไม่?

ตัวอย่างเช่นหากช่วงชุดข้อมูลการฝึกอบรมของตัวแปรเป้าหมายคือ 0-100 เมื่อฉันสร้างแบบจำลองของฉันและนำไปใช้กับสิ่งอื่นค่าของฉันจะเป็น -5 หรือไม่ หรือ 150

เนื่องจากความเข้าใจของฉันเกี่ยวกับการตัดสินใจต้นไม้ถดถอยก็ยังคงเป็นกฎพื้นฐาน - ความก้าวหน้าทางซ้าย / ขวาและที่ด้านล่างของต้นไม้ในชุดฝึกอบรมไม่สามารถมองเห็นคุณค่านอกช่วงที่กำหนดได้มันจะไม่สามารถทำได้ ทำนายมันได้หรือ


1
สำหรับคำถามที่คล้ายกันเกี่ยวกับต้นไม้ที่ไล่ระดับสีให้ดูที่stats.stackexchange.com/questions/304962/…
เอเดรียน

คำตอบ:


11

คุณมีสิทธิ์อย่างสมบูรณ์: ต้นไม้การตัดสินใจแบบคลาสสิกไม่สามารถคาดการณ์ค่านอกช่วงที่สังเกตได้ พวกเขาจะไม่คาดการณ์

เช่นเดียวกับป่าสุ่ม

ในทางทฤษฎีบางครั้งคุณเห็นการอภิปรายของสถาปัตยกรรมที่ซับซ้อนมากขึ้น (botanies?) ซึ่งใบของต้นไม้ไม่ให้ค่าเดียวแต่มีการถดถอยง่าย ๆเช่นการถดถอยตัวแปรตามในตัวแปรอิสระตัวเลข การนำทางผ่านต้นไม้จะทำให้คุณมีกฎกำหนดว่าจะใช้ค่าตัวเลข IV เพื่อถอยหลังค่า DV ในกรณีใด ในกรณีเช่นนี้การถดถอย "ระดับล่าง" นี้อาจถูกประเมินเพื่อให้ได้ค่าที่ยังไม่ได้สังเกต

อย่างไรก็ตามฉันไม่คิดว่าไลบรารีการเรียนรู้ของเครื่องมาตรฐานจะมีโครงสร้างที่ค่อนข้างซับซ้อนกว่านี้ (เมื่อเร็ว ๆ นี้ฉันค้นหาสิ่งนี้ผ่าน CRAN Task Views สำหรับ R) แต่ก็ไม่ควรจะซับซ้อนอะไรเลย คุณอาจใช้ต้นไม้ของคุณเองที่มีการถดถอยในใบไม้


1
ฉันอ่านเบาบางเกี่ยวกับ mobForest ซึ่งสนับสนุนการถดถอยของใบไม้ใน R, stats.stackexchange.com/questions/48475/mobforest-r-package
Soren Havelund Welling

1
@SorenHavelundWelling: นั่นฟังดูน่าสนใจ ขอบคุณสำหรับตัวชี้!
เตฟาน Kolassa

1
หนึ่งในอัลกอริธึมแรกที่นำเสนอโมเดลการถดถอยเชิงเส้นในใบไม้ของต้นไม้คือ Quinlan's M5 ซึ่งเป็นการประมาณที่มีอยู่ใน M5P () ใน Weka (เชื่อมโยงใน R ถึง RWeka) ขั้นตอนวิธีที่ไม่เอนเอียงสำหรับปัญหาที่เรียกว่า GUIDE ได้รับการแนะนำโดย Loh เป็นครั้งแรก ไบนารีสำหรับแพ็คเกจแบบสแตนด์อโลนของเขาอยู่ในเว็บไซต์ของเขา ในที่สุดอัลกอริทึมการแบ่งพาร์ติชันแบบเรียกซ้ำแบบจำลองของเราครอบคลุมโมเดลดังกล่าว มันมีอยู่ในชุดแพ็คเกจ R partykit: mob () เป็นเครื่องมือทั่วไปและ lmtree () และ glmtree () คือการปรับให้เข้ากับต้นไม้ที่มีโมเดลเชิงเส้น (ทั่วไป) ในใบ
Achim Zeileis

2
@SorenHavelundWelling: น่าเสียดายที่mobForestแพ็คเกจถูกลบออกจาก CRANแล้ว ฉันจะใช้เวลาดูที่เป็นpartykitแพคเกจที่Achim Zeileis แนะนำ
เตฟาน Kolassa

1
เพียงแค่หัวขึ้นที่ mobForest กลับมาที่ CRAN: cran.r-project.org/web/packages/mobForest/index.html
mkt - Reinstate Monica

7

ตรวจสอบcubistในแพ็คเกจ caret ด้วย มันสร้างการถดถอยเชิงเส้นในโหนดขั้วและสามารถคาดการณ์การคาดการณ์ด้านบนและด้านล่างช่วงของค่าการตอบสนองในข้อมูลการฝึกอบรม โหนดเทอร์มินัลยังสามารถหาค่าเฉลี่ยได้จากเพื่อนบ้านที่ใกล้ที่สุดซึ่งมีให้เป็นพารามิเตอร์หลายตัวดังนั้นจึงมีความเป็นไปได้ที่จะให้การทำนายที่ผ่านการตรวจสอบความถูกต้องสมบูรณ์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.