ค่าสัมประสิทธิ์จินีเทียบกับสิ่งเจือปนจินี - ต้นไม้การตัดสินใจ


25

ปัญหาหมายถึงการสร้างต้นไม้ตัดสินใจ ตามค่าสัมประสิทธิ์ Giniของ Wikipedia ไม่ควรสับสนกับ ' Gini impurity ' อย่างไรก็ตามสามารถใช้มาตรการทั้งสองเมื่อสร้างแผนผังการตัดสินใจ - สิ่งเหล่านี้สามารถรองรับตัวเลือกของเราเมื่อแยกชุดรายการ

1) 'มลทิน Gini' - เป็นตัวชี้วัดมาตรฐานแยกการตัดสินใจแบบต้นไม้ (ดูในลิงก์ด้านบน)

2) 'ค่าสัมประสิทธิ์ Gini' - แต่ละการแยกสามารถประเมินได้ตามเกณฑ์ AUC สำหรับแต่ละสถานการณ์ที่แยกเราสามารถสร้างเส้นโค้ง ROC และคำนวณเมตริก AUC ตาม Wikipedia AUC = (GiniCoeff + 1) / 2;

คำถามคือ: มาตรการทั้งสองนี้เทียบเท่าหรือไม่ ในอีกด้านหนึ่งฉันได้รับแจ้งว่าค่าสัมประสิทธิ์ Gini ไม่ควรสับสนกับการปนเปื้อนของ Gini ในทางกลับกันมาตรการทั้งสองนี้สามารถใช้ในการทำสิ่งเดียวกัน - การประเมินคุณภาพของการแยกแผนภูมิการตัดสินใจ


ฉันมาที่คำถามนี้เพื่อค้นหาคำจำกัดความ: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma

คำตอบ:


28

ไม่แม้จะมีชื่อของพวกเขาพวกเขาจะไม่เทียบเท่าหรือแม้แต่ที่คล้ายกัน

  • การไม่บริสุทธิ์ของ Giniเป็นการวัดการจำแนกประเภทซึ่งใช้ในบริบทตัวจําแนกคลาส
  • Gini สัมประสิทธิ์นำไปใช้กับการจำแนกเลขฐานสองและต้องใช้ตัวจําแนกที่สามารถจัดอันดับตัวอย่างในบางวิธีตามความเป็นไปได้ที่จะอยู่ในระดับบวก

ทั้งสองอย่างสามารถนำไปใช้ในบางกรณี แต่เป็นมาตรการที่แตกต่างกันสำหรับสิ่งต่าง ๆ มัวหมองคือสิ่งที่ใช้กันทั่วไปในต้นไม้ตัดสินใจ


7

ฉันเอาตัวอย่างของข้อมูลกับคนสองคน A และ B ที่มีความมั่งคั่งของหน่วยที่ 1 และหน่วยที่ 3 ตามลำดับ Gini Impurity ตาม Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

ค่าสัมประสิทธิ์ Gini ตาม Wikipedia จะเป็นอัตราส่วนของพื้นที่ระหว่างเส้นสีแดงและสีน้ำเงินต่อพื้นที่ทั้งหมดภายใต้เส้นสีน้ำเงินในกราฟต่อไปนี้

ป้อนคำอธิบายรูปภาพที่นี่

พื้นที่ใต้เส้นสีแดงคือ 1/2 + 1 + 3/2 = 3

พื้นที่ทั้งหมดภายใต้เส้นสีน้ำเงิน = 4

ดังนั้นค่าสัมประสิทธิ์จินี = 3/4

เห็นได้ชัดว่าตัวเลขทั้งสองนั้นแตกต่างกัน ฉันจะตรวจสอบกรณีเพิ่มเติมเพื่อดูว่าพวกเขามีสัดส่วนหรือมีความสัมพันธ์ที่แน่นอนและแก้ไขคำตอบ

แก้ไข: ฉันตรวจสอบชุดค่าผสมอื่นเช่นกันอัตราส่วนไม่คงที่ ด้านล่างเป็นรายการของชุดค่าผสมที่ฉันลอง ป้อนคำอธิบายรูปภาพที่นี่


คำอธิบายอะไร !!
ขอบเขต

0

ฉันคิดว่าพวกเขาทั้งคู่แสดงแนวคิดเดียวกัน

ในแผนผังการจำแนกประเภทดัชนี Gini จะใช้ในการคำนวณสิ่งเจือปนของพาร์ติชันข้อมูล ดังนั้นสมมติว่าพาร์ติชั่นข้อมูล D นั้นประกอบด้วย 4 คลาสแต่ละคลาสด้วยความน่าจะเป็นที่เท่ากัน จากนั้นดัชนี Gini (Gini Impurity) จะเป็น: Gini (D) = 1 - (0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2)

ในรถเข็นเราทำการแยกแบบไบนารี ดังนั้นดัชนี gini จะถูกคำนวณเป็นผลรวมถ่วงน้ำหนักของพาร์ติชันผลลัพธ์และเราเลือกการแยกด้วยดัชนีจินี่ที่เล็กที่สุด

ดังนั้นการใช้ Gini Impurity (Gini Index) จึงไม่ จำกัด เฉพาะสถานการณ์ไบนารี่

อีกคำสำหรับความไม่บริสุทธิ์ของ Gini คือค่าสัมประสิทธิ์ Gini ซึ่งปกติจะใช้เป็นตัวชี้วัดการกระจายรายได้


3
ค่าสัมประสิทธิ์จินีไม่บริสุทธิ์ ดูลิงก์ในคำถาม
Sean Owen

2
Wikipedia ไม่ได้เป็นแหล่งข้อมูลที่เชื่อถือได้เสมอ :-)
Pasmod Turing

2
แน่ใจ ลองดูที่อื่น: mathworld.wolfram.com/GiniCoefficient.htmlอะไรที่ทำให้คุณคิดว่า Gini สัมประสิทธิ์ = Gini มลทิน?
Sean Owen

เงยหน้าขึ้นมอง: books.google.de/…
Pasmod Turing

1
ฉันคิดว่าเรากำลังพูดถึงต้นไม้ตัดสินใจ ดังนั้นเราจึงอยู่ในสาขาการเรียนรู้ของเครื่อง! โปรดอ่านคำถามให้ละเอียดยิ่งขึ้น
Pasmod Turing
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.