คุณไม่ได้ใช้ตัวแปรคลาสเป้าหมายเลย Gini สิ่งเจือปนเป็นฟังก์ชั่นสิ่งเจือปนอื่น ๆ ทั้งหมด, วัดความไม่บริสุทธิ์ของเอาต์พุตหลังจากแยก สิ่งที่คุณทำคือการวัดสิ่งที่ใช้ขนาดตัวอย่างเท่านั้น
ฉันพยายามหาสูตรสำหรับกรณีของคุณ
สมมติว่าคุณมีตัวจําแนกเป็นไบนารี แสดงว่าด้วยแอตทริบิวต์การทดสอบกับแอตทริบิวต์ class ที่มีค่าC c + , c -Aคค+, ค-
ดัชนี gini เริ่มต้นก่อนที่จะแยกให้โดย
โดยที่เป็นสัดส่วนของจุดข้อมูลที่มีค่าสำหรับคลาส ตัวแปร. P ( A + ) c +
ผม( A ) = 1 - P( ก+)2- P( ก-)2
P( ก+)ค+
ตอนนี้สิ่งเจือปนสำหรับโหนดด้านซ้ายจะเป็น
โดยที่เป็นสัดส่วนของจุดข้อมูลจากเซตย่อยด้านซ้ายของซึ่งมีค่าในตัวแปรคลาสเป็นต้น I ( A r ) = 1 - P ( A r + ) 2 - P ( A r - ) 2 P ( A l) + ) A c +
ผม( A l ) = 1 - P( ลิตร+)2- P( ลิตร-)2
ผม( A r ) = 1 - P( R+)2- P( R-)2
P( ลิตร+)Aค+
ตอนนี้สูตรสุดท้ายสำหรับ GiniGain จะเป็น
พีลิตรอีฉT # | ลิตร|
G ฉันn ฉันG ฉันn ( ) = ฉัน( A ) - หน้าl e fเสื้อผม( A l ) - หน้าR ฉันกรัมเอชทีผม( A r )
โดยที่คือสัดส่วนของอินสแตนซ์ของเซตย่อยทางซ้ายหรือ (วิธีการหลาย ๆ กรณีอยู่ในเซตซ้ายหารด้วยจำนวนรวมของอินสแตนซ์จาก
พีl e fเสื้อ# | ลิตร|# | ลิตร| + # | R |A
ฉันรู้สึกว่าสัญกรณ์ของฉันจะดีขึ้นฉันจะดูในภายหลังเมื่อฉันจะมีเวลามากขึ้น
ข้อสรุป
การใช้จำนวนจุดข้อมูลเพียงอย่างเดียวไม่เพียงพอความไม่บริสุทธิ์หมายถึงความสามารถในการทำซ้ำการกระจายตัวของคุณสมบัติอื่น การกระจายคุณสมบัติการทดสอบจะสร้างหมายเลขที่คุณใช้ (วิธีการไปทางซ้าย, วิธีการทางขวา) แต่การกระจายของคุณลักษณะคลาสจะไม่ถูกใช้ในสูตรของคุณ
แก้ไขในภายหลัง - พิสูจน์สาเหตุที่มันลดลง
ตอนนี้ฉันสังเกตเห็นว่าฉันพลาดส่วนที่พิสูจน์ได้ว่าทำไมมันจึงเป็นดัชนี gini ในโหนดลูกน้อยกว่าโหนดแม่ ฉันไม่มี proove ที่สมบูรณ์หรือที่ตรวจสอบแล้ว แต่ฉันคิดว่าเป็นหลักฐานที่ถูกต้อง สำหรับสิ่ง interenting อื่น ๆ ที่เกี่ยวข้องกับหัวข้อที่คุณอาจตรวจสอบหมายเหตุทางเทคนิค: บางคุณสมบัติของเกณฑ์การแยก - ลีโอเบรแมน ตอนนี้มันจะเป็นไปตามหลักฐานของฉัน
สมมติว่าเราอยู่ในกรณีไบนารีและค่าทั้งหมดในโหนดสามารถอธิบายได้อย่างสมบูรณ์โดยคู่ที่มีความหมายของกรณีของชั้นแรกและกรณีของชั้นที่สอง เราสามารถระบุได้มากกว่านั้นในโหนดแม่เรามีอินสแตนซ์( a , b )aข( a , b )
เพื่อค้นหาการแยกที่ดีที่สุดเราเรียงลำดับอินสแตนซ์ตามคุณลักษณะการทดสอบและเราลองแยกเป็นไปได้ทั้งหมด เรียงตามคุณสมบัติที่กำหนดเป็นจริงการเปลี่ยนแปลงของอินสแตนซ์ซึ่งในชั้นเรียนเริ่มต้นด้วยอินสแตนซ์ของชั้นแรกหรือชั้นที่สอง เราจะสมมติว่ามันเริ่มต้นด้วยอินสแตนซ์ของคลาสเฟิร์สต์คลาส (หากไม่ใช่กรณีที่เรามีหลักฐานกระจกพร้อมการคำนวณเดียวกัน)
การแบ่งครั้งแรกเพื่อลองอยู่ในอินสแตนซ์ด้านซ้ายและในอินสแตนซ์ด้านขวาวิธีการที่ดัชนี gini สำหรับผู้สมัครที่เป็นไปได้สำหรับโหนดลูกซ้ายและขวาจะถูกเปรียบเทียบกับโหนดผู้ปกครอง? เห็นได้ชัดว่าในด้านซ้ายเรามี0 ทางด้านซ้ายเรามีค่าดัชนีจินีที่เล็กกว่า แล้วโหนดที่ถูกต้องล่ะ?( 1 , 0 )( a - 1 , b )h ( l e fT ) = 1 - ( 1 / 1 )2- ( 0 / 1 )2= 0
h ( p a r e n t ) = 1 - ( aa + b)2- ( ba + b)2
h ( r i gh t ) = 1 - ( a - 1( a - 1 ) + b)2- ( b( a - 1 ) + b)2
พิจารณาว่ามากกว่าหรือเท่ากับ (เนื่องจากเราจะแยกอินสแตนซ์ของคลาสที่หนึ่งในโหนดด้านซ้ายได้อย่างไร) และหลังจากการทำให้เข้าใจง่ายมันง่ายที่จะเห็นว่าดัชนี gini สำหรับโหนดด้านขวามีค่าน้อยกว่า โหนดหลักa0
ตอนนี้ขั้นตอนสุดท้ายของการพิสูจน์คือโหนที่ในขณะที่การพิจารณาจุดแยกที่เป็นไปได้ทั้งหมดที่กำหนดโดยข้อมูลที่เรามีเราเก็บหนึ่งซึ่งมีดัชนีจินีรวมที่เล็กที่สุดซึ่งหมายความว่าเราเลือกที่เหมาะสมที่สุดจะน้อยกว่าหรือเท่ากับ เรื่องเล็กน้อยที่ฉันรักที่มีขนาดเล็ก ซึ่งสรุปได้ว่าในท้ายที่สุดแล้วดัชนีจินีจะลดลง
ในฐานะข้อสรุปสุดท้ายเราต้องทราบแม้ว่าการแบ่งต่าง ๆ สามารถให้ค่าที่ใหญ่กว่าโหนดหลักสิ่งที่เราเลือกจะมีขนาดเล็กที่สุดในหมู่พวกเขาและยังน้อยกว่าค่าดัชนีผู้ปกครอง gini
หวังว่ามันจะช่วย