ความสัมพันธ์ระหว่าง KS, AUROC และ Gini


11

สถิติการตรวจสอบรูปแบบทั่วไปเช่นการทดสอบ Kolmogorov – Smirnov (KS), AUROCและค่าสัมประสิทธิ์จินีล้วนมีความสัมพันธ์กับหน้าที่ อย่างไรก็ตามคำถามของฉันเกี่ยวข้องกับการพิสูจน์ว่าสิ่งเหล่านี้เกี่ยวข้องกันอย่างไร ฉันอยากรู้ว่าใครสามารถช่วยฉันพิสูจน์ความสัมพันธ์เหล่านี้ได้ ฉันไม่สามารถหาอะไรออนไลน์ได้ แต่ฉันแค่สนใจอย่างแท้จริงว่าการพิสูจน์ทำงานอย่างไร ตัวอย่างเช่นฉันรู้ Gini = 2AUROC-1 แต่หลักฐานที่ดีที่สุดของฉันเกี่ยวข้องกับการชี้ไปที่กราฟ ฉันสนใจในการพิสูจน์อย่างเป็นทางการ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมอย่างมาก!


1
โดย KS คุณหมายถึงสถิติ Kolmogorov-Smirnov หรือไม่ AUROC อาจเป็นพื้นที่ใต้เส้นโค้ง ROC หรือไม่
Nitesh

ดูเหมือนว่าเริ่มต้นจาก Wikipedia และผ่านการอ้างอิงดั้งเดิมจะเป็นจุดเริ่มต้นที่ดี
LauriK

คำตอบ:


1

รายการ Wikipedia สำหรับลักษณะการดำเนินงานของผู้รับอ้างอิงเอกสารนี้สำหรับผลลัพธ์ Gini = 2AUROC-1: Hand, David J .; และจนถึง Robert J. (2001); การวางนัยทั่วไปของพื้นที่ใต้เส้นโค้ง ROC สำหรับปัญหาการจำแนกประเภทหลายคลาส, การเรียนรู้ของเครื่อง, 45, 171–186 แต่ฉันเกรงว่าฉันไม่สามารถเข้าถึงได้ง่ายเพื่อดูว่ามันใกล้เคียงกับสิ่งที่คุณต้องการมากแค่ไหน


1
... และอาจเป็นผลลัพธ์ที่ไร้ประโยชน์เนื่องจาก Gini มักใช้กับข้อมูลที่มีสองประเภทการจัดหมวดหมู่ในขณะที่ AUROC ใช้กับข้อมูลการจัดอันดับตัวเลข + ป้ายกำกับไบนารี พวกเขาอาจจะ ตรงเท่านั้นถ้าการจัดอันดับของคุณเป็นไบนารี? ในกรณีนี้มันไม่สมเหตุสมผลเลยที่จะใช้ AUROC เลยเพราะมันเป็นเส้นโค้ง 3 จุดที่มีอิสระเพียง 2 องศา ... (ฉันยังไม่ได้ตรวจสอบผลลัพธ์นั้นสแปมกระดาษจำนวนมากเกินไปบน Wikipedia ทุกวันนี้)
มี QUIT - Anony-Mousse

0

จากบทความ (Adeodato, PJ L และ Melo, SB 2016) มีความสัมพันธ์เชิงเส้นตรงระหว่างพื้นที่ภายใต้เส้นโค้ง KS (AUKS) และพื้นที่ใต้เส้นโค้ง ROC (AUROC) กล่าวคือ:

AUROC=0.5+AUKS

หลักฐานการเทียบเท่าจะรวมอยู่ในกระดาษ


0

ผลลัพธ์ Gini = 2 * AUROC-1 ยากที่จะพิสูจน์เพราะไม่จำเป็นต้องเป็นจริง บทความ Wikipedia เกี่ยวกับเส้นโค้งลักษณะการทำงานของเครื่องรับทำให้ผลลัพธ์เป็นคำจำกัดความของ Gini และบทความโดย Hand and Till (อ้างโดย nealmcb) เพียงกล่าวว่าคำจำกัดความกราฟิกของ Gini ที่ใช้เส้นโค้ง ROC นำไปสู่สูตรนี้

สิ่งที่จับได้คือคำจำกัดความของ Gini นี้ถูกใช้ในชุมชนการเรียนรู้ของเครื่องจักรและวิศวกรรม แต่ความหมายที่แตกต่างนั้นถูกใช้โดยนักเศรษฐศาสตร์และนักประชากรศาสตร์ (กลับไปที่บทความต้นฉบับของ Gini) บทความ Wikipedia เกี่ยวกับสัมประสิทธิ์ Giniกำหนดคำจำกัดความนี้ตามเส้นโค้ง Lorenz

กระดาษโดย Schechtman & Schechtman (2016)กำหนดความสัมพันธ์ระหว่าง AUC และคำนิยาม Gini เดิม แต่เพื่อดูว่าพวกเขาไม่สามารถเหมือนกันอย่างแน่นอนสมมติว่าสัดส่วนของเหตุการณ์เป็นpและเรามีลักษณนามที่สมบูรณ์แบบ โค้ง ROC จากนั้นผ่านมุมบนซ้ายและ AUCROC คือ 1 อย่างไรก็ตามเส้นโค้ง Lorenz (พลิก) วิ่งจาก (0,0) ถึง ( p , 1) ถึง (1,1) และนักเศรษฐศาสตร์ 'Gini คือ 1 - p / 2 ซึ่งเกือบจะไม่เหมือนกัน 1

ถ้าเหตุการณ์หายากความสัมพันธ์ Gini = 2 * AUROC-1 เกือบจะเป็นจริง แต่ไม่ได้ใช้คำจำกัดความดั้งเดิมของ Gini ความสัมพันธ์นั้นเป็นจริงอย่างแน่นอนหาก Gini ถูกกำหนดใหม่เพื่อให้เป็นจริง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.