ต้นไม้การตัดสินใจแยกควรนำไปใช้อย่างไรเมื่อทำนายตัวแปรต่อเนื่อง


15

ฉันกำลังเขียนการนำป่าสุ่มมาใช้ แต่ฉันเชื่อว่าคำถามนี้มีความเฉพาะเจาะจงกับต้นไม้ตัดสินใจ (เป็นอิสระจาก RFs)

บริบทคือฉันกำลังสร้างโหนดในแผนผังการตัดสินใจและทั้งการทำนายและตัวแปรเป้าหมายนั้นต่อเนื่อง โหนดมีเกณฑ์แยกเพื่อแบ่งพาร์ติชันข้อมูลออกเป็นสองชุดและฉันสร้างการทำนายใหม่สำหรับแต่ละชุดย่อยตามค่าเป้าหมายเฉลี่ยในแต่ละชุด นี่เป็นวิธีที่ถูกต้องหรือไม่?

เหตุผลที่ฉันถามคือเมื่อทำนายตัวแปรไบนารีฉันเชื่อว่าวิธีการทั่วไป (ถูกต้อง?) คือการแบ่งข้อมูลออกเป็น 0 และ 1 ชุดย่อยโดยไม่ต้องเฉลี่ยค่าเฉลี่ยในแถวข้อมูลในแต่ละชุดย่อย การแยกตามมาจะแบ่งออกเป็นชุดย่อยที่ละเอียดยิ่งขึ้นและรับค่าเฉลี่ยในแต่ละการแยกผลลัพธ์ที่ตามมาแยก (ลดลงต้นไม้การตัดสินใจ) ปฏิบัติการในสิ่งที่ตอนนี้ตัวแปรต่อเนื่องมากกว่าตัวแปรไบนารี (เพราะเราทำงานในค่าความผิดพลาดที่เหลือ เป้าหมาย)

คำถามข้างเคียง: ความแตกต่างระหว่างทั้งสองวิธีนั้นมีความสำคัญหรือไม่หรือพวกเขาจะให้ผลลัพธ์ที่เหมือนกันสำหรับต้นไม้การตัดสินใจที่สมบูรณ์หรือไม่


1
การแยกตัวแปรต่อเนื่องจะทำให้แน่ใจว่าโมเดล "ผลลัพธ์" นั้นไม่พอดีกับข้อมูลอย่างถูกต้อง หากคุณมี X ต่อเนื่องหนึ่งตัวและหนึ่ง Y ต่อเนื่องให้พิจารณาใช้ความนุ่มนวลที่ไม่ใช่พารามิเตอร์แบบเหลือง
Frank Harrell

ปัญหาที่ฉันกำลังทำอยู่ตอนนี้มีตัวแปรทำนายหลายตัว (การผสมผสานระหว่างต่อเนื่องและไบนารี) และตัวแปรเป้าหมายเดียว ดังนั้นฉันเชื่อว่า RF เป็นวิธีการที่เหมาะสมในการใช้
redcalx

2
เป็นไปได้มาก แต่ป่าสุ่มเป็นส่วนผสมของต้นไม้ (มันไม่ใช่ต้นไม้ตัดสินใจ) ดังนั้นมันจึงมีความสัมพันธ์อย่างต่อเนื่องโดยการแยกหลายครั้งและใช้การหดตัว ดังนั้นฉันไม่คิดว่าคำถามดั้งเดิมของคุณจะถูกนำไปใช้หากฉันเข้าใจ
Frank Harrell

ฉันอยากจะบอกว่าคำอธิบายกรณีต่อเนื่องของคุณนั้นถูกต้อง (เช่นวิธีมาตรฐานในการทำสิ่งต่าง ๆ ) แต่จากนั้นคำอธิบายของคุณเกี่ยวกับกรณีตัวแปรไบนารีไม่ตรงกันเลยด้วยความเข้าใจว่าป่าสุ่ม (หรือการตัดสินใจ) ต้นไม้) ทำงานดังนั้นฉันกังวลว่าเราหนึ่งคนสับสน
joran

@joran Yah โดยการบังคับให้การทำนายเป็น 0 หรือ 1 คุณสูญเสียความสามารถในการปรับการคาดการณ์อย่างละเอียด (ระหว่าง 0 ถึง 1) ที่สามารถลดข้อผิดพลาดได้ (เช่นหมายถึงข้อผิดพลาดการคาดการณ์กำลังสอง) ดังนั้นฉันสงสัยว่าวิธีการดังกล่าวจะด้อยกว่า ฉันลองใช้และความพยายามส่วนใหญ่ในการสร้างแผนภูมิการตัดสินใจล้มเหลวในการค้นหาแม้แต่การแยกเพียงครั้งเดียวที่ปรับปรุงข้อผิดพลาด
redcalx

คำตอบ:


10

ปัญหาหนึ่งที่อาจเกิดขึ้นกับต้นไม้ก็คือพวกมันมักจะมีหางที่ไม่ดีพอ ลองนึกถึงโหนดเทอร์มินัลที่รวบรวมชุดฝึกอบรมในระดับต่ำ มันจะทำนายโดยใช้ค่าเฉลี่ยของคะแนนชุดฝึกอบรมเหล่านั้นซึ่งจะคาดการณ์ผลลัพธ์ได้ไม่ดี (เนื่องจากเป็นค่าเฉลี่ย)

คุณอาจลองต้นไม้จำลอง [1] สิ่งเหล่านี้จะพอดีกับโมเดลเชิงเส้นในโหนดเทอร์มินัลและ (ฉันคิดว่า) ทำงานได้ดีกว่าต้นไม้การถดถอย ยังดีกว่าใช้เวอร์ชันที่มีวิวัฒนาการที่เรียกว่าคิวบิสท์ซึ่งรวมวิธีการต่าง ๆ ([1] และ [2] ด้านล่าง)

แบบจำลองเหล่านี้ยังรองรับตัวทำนายอย่างต่อเนื่องและไม่ต่อเนื่องแตกต่างกัน พวกเขาสามารถแยกหลายทางสำหรับตัวแปรเด็ดขาด เกณฑ์การแยกนั้นคล้ายกับต้นไม้ของรถเข็นมาก

ต้นไม้ต้นแบบสามารถพบได้ใน R ในแพ็คเกจ RWeka (เรียกว่า 'M5P') และ Cubist อยู่ในแพ็คเกจ Cubist แน่นอนคุณสามารถใช้ Weka ได้เช่นกันและนักเขียนภาพแบบเหลี่ยมมีรุ่น C ให้บริการที่เว็บไซต์ RuleQuest

[1] Quinlan, J. (1992) เรียนรู้กับชั้นเรียนอย่างต่อเนื่อง การประชุมวิชาการออสเตรเลียเรื่องการประดิษฐ์ร่วมครั้งที่ 5, 343–348.

[2] Quinlan, J. (1993) การรวมการเรียนรู้ด้วยอินสแตนซ์และแบบจำลอง การดำเนินการของการประชุมนานาชาติครั้งที่สิบว่าด้วยการเรียนรู้ของเครื่องจักร, 236–243


1
คุณไม่สามารถมีต้นไม้ที่ลึกกว่าเพื่อลดความพอดีของหางได้หรือไม่?
Jase
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.