จุดแยกถูกเลือกสำหรับตัวแปรต่อเนื่องในต้นไม้การตัดสินใจอย่างไร


15

ฉันมีคำถามสองข้อที่เกี่ยวข้องกับต้นไม้ตัดสินใจ:

  1. หากเรามีคุณลักษณะแบบต่อเนื่องเราจะเลือกค่าการแยกได้อย่างไร

    ตัวอย่าง: อายุ = (20,29,50,40 .... )

  2. ลองนึกภาพว่าเรามีคุณลักษณะอย่างต่อเนื่องที่มีค่าในR ฉันสามารถเขียนขั้นตอนวิธีการที่พบแยกจุดโวลต์เพื่อที่ว่าเมื่อเราแยกโดยโวลต์เรามีกำไรขั้นต่ำสำหรับ> วี ?fRvfvf>v

คำตอบ:


18

เพื่อหาจุดแยกค่าต่างๆจะถูกจัดเรียงและจุดกึ่งกลางระหว่างค่าที่อยู่ติดกันจะได้รับการประเมินในแง่ของตัวชี้วัดบางตัวซึ่งโดยปกติแล้วการได้รับข้อมูลหรือการปนเปื้อนของ Gini ตัวอย่างเช่นคุณช่วยบอกเรามีสี่ตัวอย่างและค่าของตัวแปรอายุที่มี ) จุดกึ่งกลางระหว่างค่า( 24.5 , 34.5 , 45 )จะได้รับการประเมินและการแยกใดก็ตามที่ได้รับข้อมูลที่ดีที่สุด (หรือตัวชี้วัดที่คุณใช้) กับข้อมูลการฝึกอบรมที่ใช้(20,29,40,50)(24.5,34.5,45)

คุณสามารถประหยัดเวลาในการคำนวณได้โดยการตรวจสอบเฉพาะจุดแยกที่อยู่ระหว่างตัวอย่างของคลาสที่แตกต่างกันเนื่องจากตัวแยกเหล่านี้เท่านั้นที่จะสามารถได้รับข้อมูลที่ดีที่สุด


@timleathart OP คาดว่าจะเป็น "spoon fed" การดำเนินการใน R. ฉันสงสัยว่า OP ได้พยายามจนถึงการอ้างอิงกับการใช้งาน R อย่างไร "แสดงถึงความพยายาม", OP ไหม
mnm

@ timleathart แต่ normaly สำหรับส่วน f เราเลือก split v ที่ให้ได้รับข้อมูลที่ใหญ่ที่สุดสำหรับ f> v แต่ที่นี่ดูคำถามที่พวกเขาขอเพื่อให้ได้ขั้นต่ำ
Bel BELHALMIA WALID

@timleathart คุณช่วยอธิบายเพิ่มเติมได้ไหม? ฉันจำเป็นต้องรู้วิธีที่ดีที่สุดในการระบุแยกดังกล่าวและตรวจสอบการได้รับข้อมูล ให้บอกว่าตัวแปรหนึ่งมีการเปลี่ยนแปลงมากมายและอื่น ๆ เกือบคงที่ ควรมีแยกเท่าไหร่?
Arpit Sisodia

@timeleathart ขยายคำตอบ ur การแยกนี้จะไม่ได้รับการปรับให้เหมาะสมเมื่อมีค่า (20,21,22,23, 45,67,80) ไม่ควรใช้การวนซ้ำขั้นต่ำสุดถึงสูงสุดที่นี่ โปรดแก้ไขฉันหากฉันผิดในสมมติฐานของฉัน :)
Arpit Sisodia

สิ่งนี้ทำให้ฉันสับสน!
Jinhua Wang
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.