ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี


12

ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี

ฉันกำลังพยายามใช้ฟอเรสต์แบบสุ่มใน Clojure

คำตอบ:


9

อย่างที่ฉันพบใน Introduction to Data Mining โดย Tan และ อัล:

การศึกษาได้แสดงให้เห็นว่าทางเลือกของการวัดที่ไม่บริสุทธิ์มีผลเพียงเล็กน้อยต่อประสิทธิภาพของอัลกอริธึมการตัดสินใจต้นไม้ เนื่องจากมาตรการการปนเปื้อนจำนวนมากค่อนข้างสอดคล้องกัน [... ] อันที่จริงกลยุทธ์ที่ใช้ในการตัดต้นไม้มีผลกระทบมากขึ้นกับต้นไม้สุดท้ายกว่าทางเลือกของการวัดที่ไม่บริสุทธิ์

ดังนั้นคุณสามารถเลือกใช้ดัชนี Gini เช่น CART หรือ Entropy เช่น C4.5

ฉันจะใช้เอนโทรปีเฉพาะอัตราส่วนเพิ่มขึ้นของ C4.5 เพราะคุณสามารถติดตามหนังสือที่เขียนโดย Quinlan: C4.5 โปรแกรมสำหรับการเรียนรู้ของเครื่องได้อย่างง่ายดาย


3
หมายเหตุเล็กน้อย - เอนโทรปีใช้บันทึกสิ่งที่อาจเป็นปัญหาเวลาคำนวณ

8
คำพูดนั้นเกี่ยวกับต้นไม้ตัดสินใจที่บริสุทธิ์ไม่ใช่ป่าสุ่ม คุณมักจะไม่ตัดต้นไม้ในป่าสุ่มเพราะคุณไม่ได้พยายามสร้างต้นไม้ที่ดีที่สุด ดังนั้นดูเหมือนว่าจะทำให้เข้าใจผิดในการพูดคุยเกี่ยวกับสิ่งที่สำคัญกว่า: การตัดแต่งกิ่งหรือการวัดที่ไม่บริสุทธิ์ เป้าหมายคือการหาต้นไม้ที่ดีที่สุดที่จะใช้กับป่าสุ่ม
Chan-Ho Suh
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.