ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี
ฉันกำลังพยายามใช้ฟอเรสต์แบบสุ่มใน Clojure
ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี
ฉันกำลังพยายามใช้ฟอเรสต์แบบสุ่มใน Clojure
คำตอบ:
อย่างที่ฉันพบใน Introduction to Data Mining โดย Tan และ อัล:
การศึกษาได้แสดงให้เห็นว่าทางเลือกของการวัดที่ไม่บริสุทธิ์มีผลเพียงเล็กน้อยต่อประสิทธิภาพของอัลกอริธึมการตัดสินใจต้นไม้ เนื่องจากมาตรการการปนเปื้อนจำนวนมากค่อนข้างสอดคล้องกัน [... ] อันที่จริงกลยุทธ์ที่ใช้ในการตัดต้นไม้มีผลกระทบมากขึ้นกับต้นไม้สุดท้ายกว่าทางเลือกของการวัดที่ไม่บริสุทธิ์
ดังนั้นคุณสามารถเลือกใช้ดัชนี Gini เช่น CART หรือ Entropy เช่น C4.5
ฉันจะใช้เอนโทรปีเฉพาะอัตราส่วนเพิ่มขึ้นของ C4.5 เพราะคุณสามารถติดตามหนังสือที่เขียนโดย Quinlan: C4.5 โปรแกรมสำหรับการเรียนรู้ของเครื่องได้อย่างง่ายดาย