รถเข็นและต้นไม้การตัดสินใจเช่นอัลกอริทึมทำงานผ่านการแบ่งพาร์ติชันซ้ำของชุดการฝึกอบรมเพื่อให้ได้ชุดย่อยที่บริสุทธิ์ที่สุดเท่าที่จะเป็นไปได้สำหรับกลุ่มเป้าหมายที่กำหนด แต่ละโหนดของต้นไม้เชื่อมโยงกับชุดของระเบียนที่ถูกแยกโดยการทดสอบที่เฉพาะเจาะจงในคุณลักษณะ ยกตัวอย่างเช่นการแยกคุณลักษณะอย่างต่อเนื่องสามารถชักนำโดยการทดสอบx ชุดของเรคคอร์ดจะถูกแบ่งพาร์ติชันแล้วในเซ็ตย่อยสองชุดที่นำไปสู่สาขาย่อยด้านซ้ายของทรีและเรคคอร์ดขวาTAA≤xT
Tl={t∈T:t(A)≤x}
และ
Tr={t∈T:t(A)>x}
ในทำนองเดียวกันคุณลักษณะหมวดหมู่สามารถนำมาใช้เพื่อกระตุ้นแยกตามค่าของมัน ตัวอย่างเช่นถ้าแต่ละสาขาและสามารถชักนำโดยการทดสอบb_iBB={b1,…,bk}iB=bi
ขั้นตอนการแบ่งของอัลกอริทึมแบบเรียกซ้ำเพื่อชักจูงต้นไม้การตัดสินใจคำนึงถึงการแยกที่เป็นไปได้ทั้งหมดสำหรับแต่ละคุณลักษณะและพยายามหาสิ่งที่ดีที่สุดตามการวัดคุณภาพที่เลือก: เกณฑ์การแยก หากชุดข้อมูลของคุณถูกชักนำในรูปแบบดังต่อไปนี้
A1,…,Am,C
โดยที่เป็นคุณลักษณะและเป็นคลาสเป้าหมายการแยกตัวเลือกของผู้สมัครทั้งหมดจะถูกสร้างและประเมินโดยเกณฑ์การแยก แยกตามคุณลักษณะอย่างต่อเนื่องและหมวดหมู่ที่สร้างขึ้นตามที่อธิบายไว้ข้างต้น การเลือกการแยกที่ดีที่สุดมักจะดำเนินการโดยมาตรการที่ไม่บริสุทธิ์ สารเจือปนของโหนดผู้ปกครองจะต้องมีการลดลงที่แยก ปล่อยให้เป็นรอยแยกที่เกิดขึ้นในชุดของระเบียนซึ่งเป็นเกณฑ์การแยกที่ใช้ในการวัดสิ่งเจือปนคือ:AjC(E1,E2,…,Ek)EI(⋅)
Δ=I(E)−∑i=1k|Ei||E|I(Ei)
มาตรการปนเปื้อนมาตรฐานคือเอนโทรปีของแชนนอนหรือดัชนีจินี โดยเฉพาะอย่างยิ่งรถเข็นใช้ดัชนี Gini ที่กำหนดไว้สำหรับชุดดังต่อไปนี้ ให้เป็นเศษส่วนของเร็กคอร์ดในของคลาสแล้ว
โดยที่คือจำนวนคลาสEpjEcj
pj=|{t∈E:t[C]=cj}||E|
Gini(E)=1−∑j=1Qp2j
Q
มันจะนำไปสู่การปนเปื้อน 0 เมื่อบันทึกทั้งหมดเป็นของชั้นเดียวกัน
ตัวอย่างเช่นสมมติว่าเรามีชุดคลาสไบนารีของเรคคอร์ดที่การแจกแจงคลาสคือ - ต่อไปนี้เป็นตัวแยกที่ดีสำหรับT(1/2,1/2)T
การกระจายความน่าจะเป็นของระเบียนในเป็นและ 'หนึ่งคือ(0,1)สมมติว่าและมีขนาดเท่ากันดังนั้น1/2 เราจะเห็นว่าTl(1,0)Tr(0,1)TlTr|Tl|/|T|=|Tr|/|T|=1/2Δ
Δ=1−1/22−1/22−0−0=1/2
Δ
Δ=1−1/22−1/22−1/2(1−(3/4)2−(1/4)2)−1/2(1−(1/4)2−(3/4)2)=1/2−1/2(3/8)−1/2(3/8)=1/8
การแยกแรกจะถูกเลือกเป็นการแยกที่ดีที่สุดจากนั้นอัลกอริธึมจะดำเนินการในลักษณะวนซ้ำ
มันง่ายต่อการจำแนกอินสแตนซ์ใหม่ด้วยแผนผังการตัดสินใจในความเป็นจริงมันก็เพียงพอที่จะติดตามเส้นทางจากโหนดรูตไปยังลีฟ เร็กคอร์ดถูกจัดประเภทด้วยคลาสส่วนใหญ่ของใบไม้ที่ถึง
สมมติว่าเราต้องการจัดตารางในรูปนี้
A,B,CCAB
แผนผังการตัดสินใจที่ชักนำที่เป็นไปได้อาจเป็นดังต่อไปนี้
เป็นที่ชัดเจนว่าสแควร์บันทึกจะถูกจัดประเภทตามต้นไม้การตัดสินใจเป็นวงกลมเนื่องจากบันทึกนั้นอยู่บนใบไม้ที่มีป้ายกำกับที่มีวงกลม
ในตัวอย่างของเล่นนี้ความแม่นยำในชุดการฝึกอบรมคือ 100% เพราะไม่มีการบันทึกผิดต้นไม้ ในการแสดงกราฟิกของชุดการฝึกอบรมด้านบนเราสามารถเห็นขอบเขต (เส้นประสีเทา) ที่ต้นไม้ใช้เพื่อจำแนกอินสแตนซ์ใหม่
มีวรรณคดีมากมายบนต้นไม้ตัดสินใจฉันต้องการเพียงแค่เขียนบทแนะนำสั้น ๆ การติดตั้งที่มีชื่อเสียงอีกตัวหนึ่งคือ C4.5