ความสัมพันธ์ระหว่างคะแนน GINI และอัตราส่วนความน่าจะเป็นคืออะไร


21

ฉันกำลังศึกษาต้นไม้จำแนกและต้นไม้ถดถอยและหนึ่งในมาตรการสำหรับสถานที่แยกคือคะแนน GINI

ตอนนี้ฉันถูกใช้เพื่อกำหนดตำแหน่งที่แยกที่ดีที่สุดเมื่อบันทึกอัตราส่วนความน่าจะเป็นของข้อมูลเดียวกันระหว่างการแจกแจงสองค่าเป็นศูนย์หมายความว่าโอกาสในการเป็นสมาชิกมีแนวโน้มเท่ากัน

สัญชาตญาณของฉันบอกว่าต้องมีการเชื่อมต่อบางอย่างที่ GINI ต้องมีรากฐานที่ดีในทฤษฎีทางคณิตศาสตร์ของข้อมูล (Shannon) แต่ฉันไม่เข้าใจ GINI ดีพอที่จะได้รับความสัมพันธ์ของตัวเอง

คำถาม:

  • "หลักการแรก" ที่ได้มาจากคะแนนความไม่บริสุทธิ์ของ GINI เป็นตัวชี้วัดสำหรับการแยกคืออะไร?
  • คะแนน GINI เกี่ยวข้องกับบันทึกของอัตราส่วนความน่าจะเป็นหรือปัจจัยพื้นฐานด้านข้อมูลทฤษฎีอื่น ๆ อย่างไร (Shannon Entropy, pdf , และเอนโทรปีของการข้ามเป็นส่วนหนึ่งของคะแนนเหล่านั้น)

อ้างอิง:

เอนโทรปีของแชนนอนอธิบายว่า:

H(x)=ΣiP(xi)logbP(xi)

การขยายไปยังกรณีหลายตัวแปรที่เราได้รับ:

H(X,Y)=ΣxΣyP(x,y)logbP(x,y)

Entropy แบบมีเงื่อนไขถูกกำหนดไว้ดังนี้:

H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,H(X|Y)=H(X,Y)H(Y)

บันทึกของอัตราส่วนของโอกาสเกิดจะใช้สำหรับการตรวจสอบการเปลี่ยนแปลงอย่างกระทันหันและได้มาใช้เหล่านี้ (ฉันไม่ได้มาหน้าฉัน)

สิ่งเจือปน GINI:

  • รูปแบบทั่วไปของการปนเปื้อน GINI คือI=i=1mfi(1fi)

ความคิด:

  • การแยกจะทำในการวัดความบริสุทธิ์ "ความบริสุทธิ์" สูงมีแนวโน้มเช่นเดียวกับเอนโทรปีที่ต่ำ วิธีนี้มีความเกี่ยวข้องกับการลดเอนโทรปี
  • มีความเป็นไปได้ว่าการกระจายแบบพื้นฐานที่สันนิษฐานนั้นเป็นแบบเดียวกัน พวกเขามีแนวโน้มที่จะมีส่วนผสมของการแจกแจง
  • ฉันสงสัยว่าแผนภูมิที่มาของ Shewhart สามารถใช้ที่นี่ได้หรือไม่?
  • GINI Impurity ดูเหมือนจะเป็นส่วนสำคัญของฟังก์ชั่นความหนาแน่นของความน่าจะเป็นสำหรับการแจกแจงทวินามด้วยการทดลอง 2 ครั้งและความสำเร็จหนึ่งครั้ง P(x=k)=(21)p(1p)

(เพิ่มเติม)

  • แบบฟอร์มยังสอดคล้องกับการแจกแจงแบบเบต้า - ทวินามซึ่งเป็นรูปแบบคอนจูเกตก่อนการแจกแจงแบบไฮเพอร์เมตริกซ์ การทดสอบ Hypergeometric มักใช้เพื่อกำหนดว่าตัวอย่างใดที่มีค่าสูงหรือต่ำกว่าค่าที่แสดงในตัวอย่าง นอกจากนี้ยังมีความสัมพันธ์กับการทดสอบที่แน่นอนของฟิชเชอร์ไม่ว่าจะเป็นอะไรก็ตาม (โปรดสังเกตด้วยตนเองไปเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้)

แก้ไข: ฉันสงสัยว่ามีรูปแบบของ GINI ที่ทำงานได้ดีกับตรรกะดิจิทัลและ / หรือ rb-trees ฉันหวังว่าจะสำรวจสิ่งนี้ในโครงงานระดับฤดูใบไม้ร่วงนี้


1
เป็นปัญหาหรือไม่ถ้าฉันตอบคำถามของฉันเอง?
EngrStudent - Reinstate Monica

1
ไม่เลย. หากคุณคิดในสิ่งที่คุณคิดว่าเป็นคำตอบที่สมเหตุสมผล
gung - Reinstate Monica

@EngrStudent คำถามที่ดี แต่ลิงค์แรกที่คุณให้ไว้ในส่วนการอ้างอิงเกี่ยวข้องกับค่าสัมประสิทธิ์ Gini ซึ่งไม่มีส่วนเกี่ยวข้องกับการวัด Gini ที่ใช้ในรถเข็น
Antoine

เกี่ยวกับดัชนี Gini ฉันเพิ่งโพสต์การตีความง่าย ๆ : stats.stackexchange.com/questions/308885/…
Picaud Vincent

คำตอบ:


11

ฉันจะใช้สัญลักษณ์เดียวกับที่ฉันใช้ที่นี่: คณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกและต้นไม้การถดถอย

Gini Gain และ Information Gain ( ) เป็นเกณฑ์การแยกที่ไม่บริสุทธิ์ ความแตกต่างเพียงอย่างเดียวในฟังก์ชั่นที่ไม่บริสุทธิ์ :ฉันIGI

  1. Gini:Gini(E)=1j=1cpj2
  2. Entropy:H(E)=j=1cpjlogpj

อันที่จริงพวกเขาเป็นค่าเฉพาะของการวัดเอนโทรปีทั่วไป (Tsallis 'Entropy) parametrized ใน :β

Hβ(E)=1β1(1j=1cpjβ)

Giniจะได้รับกับและกับ1β=2Hβ1

บันทึกความน่าจะเป็นที่เรียกว่า statistic เป็นการแปลงเชิงเส้นของ Information Gain:G

G-statistic=2|E|IG

ขึ้นอยู่กับคนในชุมชน (สถิติ / การขุดข้อมูล) ต้องการตัวชี้วัดหนึ่งตัวหรืออีกคำถามหนึ่ง (คำถามที่เกี่ยวข้องที่นี่ ) พวกเขาอาจเทียบเท่าในกระบวนการตัดสินใจต้นไม้การตัดสินใจ โอกาสในการบันทึกอาจให้คะแนนที่สูงขึ้นไปยังพาร์ติชันที่สมดุลเมื่อมีหลายคลาส แต่ [หมายเหตุทางเทคนิค: คุณสมบัติบางอย่างของเกณฑ์การแยก Breiman 1996]

Gini Gain นั้นดีกว่าเพราะมันไม่มีลอการิทึมและคุณสามารถหาแบบฟอร์มที่ปิดสำหรับค่าและความแปรปรวนที่คาดหวังภายใต้สมมติฐานการแบ่งแบบสุ่ม [Alin Dobra, Johannes Gehrke: Bias Correction ในการจัดหมวดหมู่ต้นไม้ ICML 2001: 90-97] ไม่ใช่เรื่องง่ายสำหรับการได้รับข้อมูล (ถ้าคุณสนใจดูที่นี่ )


1

คำถามที่ดี. น่าเสียดายที่ฉันยังไม่มีชื่อเสียงเพียงพอที่จะโหวตหรือแสดงความคิดเห็นดังนั้นโปรดตอบกลับแทน!

ฉันไม่คุ้นเคยกับการทดสอบอัตราส่วนมากนัก แต่มันทำให้ฉันรู้สึกว่ามันเป็นพิธีการที่ใช้ในการเปรียบเทียบความน่าจะเป็นของข้อมูลที่เกิดจากการแจกแจงที่แตกต่างกันสอง (หรือมากกว่า) ในขณะที่สัมประสิทธิ์ Gini เป็นสถิติสรุปของการแจกแจงเดี่ยว

วิธีที่มีประโยชน์ในการคิดค่าสัมประสิทธิ์ Gini (IMO) คือพื้นที่ใต้เส้นโค้ง Lorenz (เกี่ยวข้องกับ cdf)

อาจเป็นไปได้ที่จะทำการเปรียบเทียบเอนโทรปีของแชนนอนกับ Gini โดยใช้คำจำกัดความที่กำหนดใน OP สำหรับเอนโทรปี:

H=ΣiP(xi)logbP(xi)

และคำจำกัดความของ Gini:

G=11μΣiP(xi)(Si1+Si)โดยที่

x iSi=Σj=1iP(xi)xi (เช่นค่าเฉลี่ยสะสมสูงถึง )xi

มันดูไม่ง่ายเลย!


อัตราส่วนความน่าจะเป็นของบันทึกจะดำเนินการกับข้อมูลเดียวกัน การแจกแจงอย่างใดอย่างหนึ่งสามารถเป็นรูปแบบทั่วไปแบบเดียวกันกับแบบอื่น ๆ แต่พารามิเตอร์นั้นได้รับการปรับให้เหมาะกับข้อมูลเมื่อเกณฑ์อื่น ๆ เป็นจริง ตัวอย่างเช่นคุณอาจมีการแจกจ่ายหนึ่งรายการซึ่งพารามิเตอร์อธิบายการเปลี่ยนแปลงกระบวนการผลิตที่มีสุขภาพดี (ไม่จำเป็นต้องเป็นเกาส์เซียน) และอีกรายการหนึ่งที่เหมาะสมกับมูลค่ากระบวนการผลิตในปัจจุบันและดำเนินการทั้งสองในค่ากระบวนการผลิตปัจจุบันเปรียบเทียบอัตราส่วน ความเป็นไปได้ของการทัศนศึกษา มันสามารถเปรียบเทียบได้กับความเป็นจริง
EngrStudent - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.