2
ความสัมพันธ์ระหว่างคะแนน GINI และอัตราส่วนความน่าจะเป็นคืออะไร
ฉันกำลังศึกษาต้นไม้จำแนกและต้นไม้ถดถอยและหนึ่งในมาตรการสำหรับสถานที่แยกคือคะแนน GINI ตอนนี้ฉันถูกใช้เพื่อกำหนดตำแหน่งที่แยกที่ดีที่สุดเมื่อบันทึกอัตราส่วนความน่าจะเป็นของข้อมูลเดียวกันระหว่างการแจกแจงสองค่าเป็นศูนย์หมายความว่าโอกาสในการเป็นสมาชิกมีแนวโน้มเท่ากัน สัญชาตญาณของฉันบอกว่าต้องมีการเชื่อมต่อบางอย่างที่ GINI ต้องมีรากฐานที่ดีในทฤษฎีทางคณิตศาสตร์ของข้อมูล (Shannon) แต่ฉันไม่เข้าใจ GINI ดีพอที่จะได้รับความสัมพันธ์ของตัวเอง คำถาม: "หลักการแรก" ที่ได้มาจากคะแนนความไม่บริสุทธิ์ของ GINI เป็นตัวชี้วัดสำหรับการแยกคืออะไร? คะแนน GINI เกี่ยวข้องกับบันทึกของอัตราส่วนความน่าจะเป็นหรือปัจจัยพื้นฐานด้านข้อมูลทฤษฎีอื่น ๆ อย่างไร (Shannon Entropy, pdf , และเอนโทรปีของการข้ามเป็นส่วนหนึ่งของคะแนนเหล่านั้น) อ้างอิง: เกณฑ์การถ่วงน้ำหนักของ Gini เป็นอย่างไร คณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกและต้นไม้การถดถอย http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (เพิ่ม) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity เอนโทรปีของแชนนอนอธิบายว่า: H( x ) = ΣผมP( xผม) บันทึกขP( xผม)H(x)=ΣiP(xi)logbP(xi) H \left(x \right) = \Sigma_{i} …