ฉันกำลังศึกษาต้นไม้จำแนกและต้นไม้ถดถอยและหนึ่งในมาตรการสำหรับสถานที่แยกคือคะแนน GINI
ตอนนี้ฉันถูกใช้เพื่อกำหนดตำแหน่งที่แยกที่ดีที่สุดเมื่อบันทึกอัตราส่วนความน่าจะเป็นของข้อมูลเดียวกันระหว่างการแจกแจงสองค่าเป็นศูนย์หมายความว่าโอกาสในการเป็นสมาชิกมีแนวโน้มเท่ากัน
สัญชาตญาณของฉันบอกว่าต้องมีการเชื่อมต่อบางอย่างที่ GINI ต้องมีรากฐานที่ดีในทฤษฎีทางคณิตศาสตร์ของข้อมูล (Shannon) แต่ฉันไม่เข้าใจ GINI ดีพอที่จะได้รับความสัมพันธ์ของตัวเอง
คำถาม:
- "หลักการแรก" ที่ได้มาจากคะแนนความไม่บริสุทธิ์ของ GINI เป็นตัวชี้วัดสำหรับการแยกคืออะไร?
- คะแนน GINI เกี่ยวข้องกับบันทึกของอัตราส่วนความน่าจะเป็นหรือปัจจัยพื้นฐานด้านข้อมูลทฤษฎีอื่น ๆ อย่างไร (Shannon Entropy, pdf , และเอนโทรปีของการข้ามเป็นส่วนหนึ่งของคะแนนเหล่านั้น)
อ้างอิง:
- เกณฑ์การถ่วงน้ำหนักของ Gini เป็นอย่างไร
- คณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกและต้นไม้การถดถอย
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(เพิ่ม) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
เอนโทรปีของแชนนอนอธิบายว่า:
การขยายไปยังกรณีหลายตัวแปรที่เราได้รับ:
Entropy แบบมีเงื่อนไขถูกกำหนดไว้ดังนี้:
บันทึกของอัตราส่วนของโอกาสเกิดจะใช้สำหรับการตรวจสอบการเปลี่ยนแปลงอย่างกระทันหันและได้มาใช้เหล่านี้ (ฉันไม่ได้มาหน้าฉัน)
สิ่งเจือปน GINI:
- รูปแบบทั่วไปของการปนเปื้อน GINI คือ
ความคิด:
- การแยกจะทำในการวัดความบริสุทธิ์ "ความบริสุทธิ์" สูงมีแนวโน้มเช่นเดียวกับเอนโทรปีที่ต่ำ วิธีนี้มีความเกี่ยวข้องกับการลดเอนโทรปี
- มีความเป็นไปได้ว่าการกระจายแบบพื้นฐานที่สันนิษฐานนั้นเป็นแบบเดียวกัน พวกเขามีแนวโน้มที่จะมีส่วนผสมของการแจกแจง
- ฉันสงสัยว่าแผนภูมิที่มาของ Shewhart สามารถใช้ที่นี่ได้หรือไม่?
- GINI Impurity ดูเหมือนจะเป็นส่วนสำคัญของฟังก์ชั่นความหนาแน่นของความน่าจะเป็นสำหรับการแจกแจงทวินามด้วยการทดลอง 2 ครั้งและความสำเร็จหนึ่งครั้ง
(เพิ่มเติม)
- แบบฟอร์มยังสอดคล้องกับการแจกแจงแบบเบต้า - ทวินามซึ่งเป็นรูปแบบคอนจูเกตก่อนการแจกแจงแบบไฮเพอร์เมตริกซ์ การทดสอบ Hypergeometric มักใช้เพื่อกำหนดว่าตัวอย่างใดที่มีค่าสูงหรือต่ำกว่าค่าที่แสดงในตัวอย่าง นอกจากนี้ยังมีความสัมพันธ์กับการทดสอบที่แน่นอนของฟิชเชอร์ไม่ว่าจะเป็นอะไรก็ตาม (โปรดสังเกตด้วยตนเองไปเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้)
แก้ไข: ฉันสงสัยว่ามีรูปแบบของ GINI ที่ทำงานได้ดีกับตรรกะดิจิทัลและ / หรือ rb-trees ฉันหวังว่าจะสำรวจสิ่งนี้ในโครงงานระดับฤดูใบไม้ร่วงนี้