ต้นไม้การตัดสินใจเป็นต้นไม้ไบนารีหรือไม่?


21

เกือบทุกตัวอย่างการตัดสินใจที่ฉันเจอเจอจะเป็นต้นไม้คู่ เป็นสากลที่สวยมากใช่ไหม อัลกอริธึมมาตรฐานส่วนใหญ่ (C4.5, CART และอื่น ๆ ) สนับสนุนเฉพาะต้นไม้ไบนารีหรือไม่ จากสิ่งที่ฉันรวบรวมCHAIDไม่ได้ จำกัด อยู่ที่ต้นไม้ไบนารี แต่ดูเหมือนว่าจะเป็นข้อยกเว้น

การแยกแบบสองทางแล้วตามด้วยการแยกแบบสองทางอีกทางหนึ่งของเด็ก ๆ นั้นไม่เหมือนกับการแยกแบบสามทางเดียว นี่อาจเป็นประเด็นทางวิชาการ แต่ฉันพยายามทำให้แน่ใจว่าฉันเข้าใจกรณีที่ใช้บ่อยที่สุด

คำตอบ:


18

นี่เป็นปัญหาทางเทคนิคเป็นหลัก: หากคุณไม่ จำกัด ตัวเลือกไบนารีมันมีความเป็นไปได้มากเกินไปสำหรับการแบ่งย่อยในครั้งถัดไป ดังนั้นคุณจะถูกต้องในทุกประเด็นที่เกิดขึ้นในคำถามของคุณ

โปรดทราบว่าอัลกอริทึมแบบต้นไม้ส่วนใหญ่ทำงานแบบเป็นขั้นตอนและไม่รับประกันว่าจะให้ผลลัพธ์ที่ดีที่สุด นี่เป็นเพียงข้อแม้พิเศษหนึ่งข้อ

แม้ว่าจะไม่ได้อยู่ในระหว่างการสร้าง / การตัดแต่งกิ่งต้นไม้ แต่การแยกสองชนิดนั้นมีค่าเท่ากันแม้ว่าจะปรากฏขึ้นทันทีหลังจากกัน


เพียงเพื่อขยายในจุดแรกของคุณ: จำนวนของการแยกที่เป็นไปได้จะเพิ่มขึ้นชี้แจง หากคุณแยกตัวแปรต่อเนื่องที่มี 1,000 ค่าที่แตกต่างกันจะมีการแบ่งไบนารีแบบไบนารี 999 แต่ 999 * 998 แยกแบบแยกย่อย
Peter Flom - Reinstate Monica

2
มีแยกสามส่วนจริงๆแล้ว (1000-13-1)=999* * * *998/2
whuber

5

การแยกแบบสองทางแล้วตามด้วยการแยกแบบสองทางอีกทางหนึ่งของเด็ก ๆ นั้นไม่ใช่สิ่งเดียวกับการแยกแบบสามทางเดียว

ฉันไม่แน่ใจว่าคุณหมายถึงอะไรที่นี่ การแยกแบบหลายทางใด ๆ สามารถแสดงเป็นชุดการแยกแบบสองทาง สำหรับการแบ่งแบบสามทางคุณสามารถแบ่งออกเป็น A, B และ C โดยแบ่งเป็น A&B กับ C ก่อนแล้วจึงแยก A จาก B

อัลกอริทึมที่ให้มาอาจไม่ได้เลือกลำดับเฉพาะนั้น (โดยเฉพาะอย่างยิ่งถ้าหากเช่นอัลกอริธึมส่วนใหญ่มันเป็นโลภ) แต่ก็ทำได้อย่างแน่นอน และถ้ามีการสุ่มหรือการดำเนินการตามขั้นตอนการสุ่มในป่าสุ่มหรือต้นไม้ที่ได้รับการกระตุ้นโอกาสในการค้นหาลำดับการแยกที่เหมาะสมจะเพิ่มขึ้น ตามที่คนอื่น ๆ ได้ชี้ให้เห็นแล้วการแยกหลายทางมีค่าใช้จ่ายสูงดังนั้นทางเลือกเหล่านี้นักวิจัยส่วนใหญ่จึงเลือกไบนารีแยก

หวังว่านี่จะช่วยได้


3
ใช่ฉันเข้าใจว่า A, B และ C สามารถทำได้โดยแบ่งเป็น A&B กับ C แล้วแยก A จาก B จุดของฉันคือจุดที่อัลกอริทึมที่กำหนดอาจไม่เลือกลำดับนั้น
Michael McGowan

2

เกี่ยวกับการใช้ต้นไม้การตัดสินใจและการแยก (แบบไบนารีกับแบบอื่น) ฉันรู้เพียง CHAID ที่มีการแยกแบบไม่ใช่ไบนารี แต่มีโอกาสอื่น ๆ สำหรับฉันแล้วการใช้งานหลักของการแยกไบนามิคไม่ใช่ในการทำแบบฝึกหัดการทำดาต้าที่ฉันกำลังมองหาวิธีการปรับตัวแปรตัวแปรที่มีหลายระดับให้เหมาะสมที่สุด ชุดของการแยกแบบไบนารีนั้นไม่มีประโยชน์เหมือนกับการจัดกลุ่มที่ทำโดย CHAID


เป็นเรื่องตลกที่คุณพูดถึงการยิ้มเพราะการคิดเกี่ยวกับการยิ้มนั้นเป็นสิ่งที่ทำให้ฉันเริ่มสงสัยเกี่ยวกับคำถามนี้ (แม้ว่าฉันกำลังคิดถึงตัวแปรตัวเลข binning มากกว่าตัวแปรที่ระบุ)
Michael McGowan

@Michael ใช่ว่าใช้งานได้ แต่คุณทิ้งข้อมูล ฉันจะใช้มันเมื่อฉันต้องรวมอยู่ในระดับเบาบางของตัวแปรเล็กน้อย - เมื่อการสร้างแบบจำลองที่ดีที่สุดที่จะทำได้โดยไม่ต้องใช้วิธีการต้นไม้ชนิด (พูดถดถอยโลจิสติหรือ SVM และหลายตัวแปรหุ่นเบาบางทำให้เกิดปัญหา)
B_Miner

0

โปรดอ่านสิ่งนี้

ด้วยเหตุผลเชิงปฏิบัติ (การระเบิดแบบ combinatorial) ห้องสมุดส่วนใหญ่ใช้ต้นไม้การตัดสินใจด้วยการแยกแบบไบนารี สิ่งที่ดีคือพวกเขามีปัญหาสมบูรณ์ (Hyafil, Laurent และ Ronald L. Rivest "การสร้างแผนภูมิการตัดสินใจไบนารีที่ดีที่สุดคือ NP-complete" จดหมายประมวลผลข้อมูล 5.1 (1976): 15-17)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.