Wojtek J. Krzanowski และ David J. Hand ROC Curves สำหรับข้อมูลอย่างต่อเนื่อง (2009) เป็นข้อมูลอ้างอิงที่ดีสำหรับทุกสิ่งที่เกี่ยวข้องกับ ROC curves มันรวบรวมผลลัพธ์จำนวนมากในสิ่งที่เป็นฐานวรรณกรรมที่กว้างใหญ่ที่น่าหงุดหงิดซึ่งมักจะใช้คำศัพท์ที่แตกต่างกันเพื่อหารือเกี่ยวกับหัวข้อเดียวกัน
นอกจากนี้หนังสือเล่มนี้เสนอความเห็นและการเปรียบเทียบวิธีการทางเลือกที่ได้รับมาเพื่อประเมินปริมาณเดียวกันและชี้ให้เห็นว่าวิธีการบางอย่างทำให้สมมติฐานที่ไม่สามารถป้องกันได้ในบริบทเฉพาะ นี่เป็นบริบทเช่นนั้น คำตอบอื่น ๆ รายงานวิธีการของ Hanley & McNeil ซึ่งสมมติว่าแบบจำลอง binormal สำหรับการแจกแจงคะแนนซึ่งอาจไม่เหมาะสมในกรณีที่การแจกแจงคะแนนชั้นเรียนไม่ปกติ (ใกล้เคียง) ข้อสันนิษฐานของคะแนนการแจกแจงแบบปกติดูเหมือนจะไม่เหมาะสมโดยเฉพาะอย่างยิ่งในบริบทการเรียนรู้ของเครื่องจักรสมัยใหม่โมเดลทั่วไปทั่วไปเช่นxgboostมีแนวโน้มที่จะสร้างคะแนนด้วยการแจกแจง "อ่างอาบน้ำ" สำหรับงานการจำแนกประเภท (นั่นคือการแจกแจงที่มีความหนาแน่นสูง )
คำถามที่ 1 - AUC
ส่วนที่ 6.3 อธิบายการเปรียบเทียบ ROC AUC สำหรับสอง ROC curves (pp 113-114) โดยเฉพาะอย่างยิ่งความเข้าใจของฉันคือว่าทั้งสองรุ่นมีความสัมพันธ์กันดังนั้นข้อมูลเกี่ยวกับวิธีการคำนวณมีความสำคัญอย่างยิ่งที่นี่; มิฉะนั้นสถิติการทดสอบของคุณจะมีอคติเพราะไม่ได้มีส่วนเกี่ยวข้องกับความสัมพันธ์R
สำหรับกรณีของเส้นโค้ง ROC ที่ไม่ได้เชื่อมโยงซึ่งไม่ได้อยู่บนสมมติฐานการแจกแจงแบบพารามิเตอร์ใด ๆ สถิติสำหรับ tets และช่วงความเชื่อมั่นเมื่อเปรียบเทียบ AUC สามารถตรงไปตรงมาตามการประมาณการและ^ AUC 2ของค่า AUC และประมาณการค่าเบี่ยงเบนมาตรฐานS 1และS 2ตามที่กำหนดในหัวข้อ 3.5.1:AUCˆ1AUCˆ2S1S2
Z= AUCˆ1- AUCˆ2S21+ S22-------√
ในการขยายการทดสอบดังกล่าวไปยังกรณีที่มีการใช้ข้อมูลเดียวกันสำหรับตัวแยกประเภททั้งสองเราต้องคำนึงถึงความสัมพันธ์ระหว่างการประมาณ AUC:
Z= AUCˆ1- AUCˆ2S21+ S22- r S.1S2-------------√
โดยที่คือค่าประมาณความสัมพันธ์นี้ Hanley และ McNeil (1983) ทำส่วนขยายโดยอาศัยการวิเคราะห์ของพวกเขาในกรณีปกติ แต่ให้ตารางแสดงวิธีการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ประมาณrจากความสัมพันธ์r Pของตัวแยกประเภทสองภายในคลาส P และความสัมพันธ์ของr nของตัวแยกประเภทสองตัวภายในคลาส N โดยบอกว่าได้รับมาทางคณิตศาสตร์เมื่อมีการร้องขอ ผู้เขียนคนอื่น ๆ (เช่น Zou, 2001) ได้พัฒนาแบบทดสอบตามแบบจำลองสองชั้นโดยสมมติว่าการแปลงที่เหมาะสมสามารถพบได้ซึ่งจะเปลี่ยนการแจกแจงคะแนนของคลาส P และ N เป็นปกติพร้อมกันRRRPRn
ยูk≥2
U
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,…,nPPsNj,j=1,…,nNNksrNj,j=1…nNsrPi,j=1,…,nPAUCˆr,r=1,…,kk กำหนด
V r 01 =1
Vr10=1nN∑j=1nN[I(srPi>srNj)+12I(srPi=srNj)],i=1,…,nP
และ
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
ถัดไปกำหนด matrixด้วยองค์ประกอบ th
และ matrixด้วยองค์ประกอบ th
จากนั้นเมทริกซ์ความแปรปรวนร่วม estiamted สำหรับเวกเตอร์ของพื้นที่โดยประมาณภายใต้เส้นโค้งคือ
k×kW10(r,s)
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
k×kW01(r,s)wr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
(AUCˆ1,…,AUCˆk)W=1nPW10+1nNW01
พร้อมองค์ประกอบ . นี่คือการวางนัยทั่วไปของผลลัพธ์สำหรับการประมาณความแปรปรวนของ AUC ที่ประเมินค่าเพียงครั้งเดียวเช่นกันซึ่งให้ไว้ในหัวข้อ 3.5.1 ในกรณีที่มีตัวจําแนกสองตัวความสัมพันธ์เชิงประจักษ์ระหว่าง AUCs โดยประมาณนั้นได้รับโดยซึ่งสามารถใช้ในด้านบนwr,srw1,2w1,1w2,2√z
เนื่องจากคำตอบอื่นให้นิพจน์ของ Hanley และ McNeil สำหรับตัวประมาณค่าความแปรปรวน AUC ที่นี่ฉันจะสร้างตัวประมาณ DeLong จาก p 68:
วิธีการทางเลือกเนื่องจาก DeLong et al (1988) และแบบสุดขั้วโดย Pepe (2003) อาจทำให้การประมาณการง่ายขึ้นและเป็นแนวทางที่นำเสนอแนวคิดที่มีประโยชน์พิเศษของค่าตำแหน่ง ค่าตำแหน่งของคะแนนมีการอ้างอิงถึงประชากรที่ระบุเป็นหน้าที่ของผู้รอดชีวิตประชากรที่sนี้ค่าตำแหน่งสำหรับในประชากร N คือและประชากร P มันเป็น(s) การประเมินเชิงประจักษ์ของค่าตำแหน่งจะได้รับตามสัดส่วนที่ชัดเจน ดังนั้นค่าตำแหน่งของการสังเกตในประชากร P แสดงถึงเป็นสัดส่วนของค่าตัวอย่างจาก P ที่เกินsss1−F(s)s1−G(s)sNisPNisNiและคือความแปรปรวนของค่าตำแหน่งของแต่ละการสังเกตจาก N ที่เกี่ยวข้องกับประชากร P ...var(sNPi)
การประเมินความแปรปรวนของ DeLong et al (1988) ของได้รับในรูปของความแปรปรวนเหล่านี้:
AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
โปรดทราบว่าเป็นฟังก์ชันการแจกแจงสะสมคะแนนในประชากร N และเป็นฟังก์ชันการแจกแจงสะสมคะแนนในประชากรพีวิธีมาตรฐานในการประมาณการและคือการใช้ecdf หนังสือเล่มนี้ยังมีวิธีการทางเลือกอื่น ๆ ในการประมาณค่า ecdf เช่นการประมาณความหนาแน่นของเคอร์เนล แต่นั่นอยู่นอกขอบเขตของคำตอบนี้FGFG
สถิติและอาจจะถือว่าเป็นค่าเบี่ยงเบนมาตรฐานและการทดสอบทางสถิติของสมมติฐานว่างดำเนินไปตามปกติ (ดูเพิ่มเติมที่: การทดสอบสมมติฐาน )Zz
นี่เป็นโครงร่างระดับสูงที่เรียบง่ายของวิธีการทดสอบสมมติฐาน:
การทดสอบในคำพูดของคุณ "ว่าตัวแยกประเภทหนึ่งดีกว่าตัวอื่นอย่างมีนัยสำคัญหรือไม่" สามารถใช้ถ้อยคำใหม่เป็นการทดสอบสมมติฐานว่าง ๆ ว่าแบบจำลองทั้งสองมี AUC ที่เท่าเทียมกันทางสถิติเทียบกับสมมติฐานทางเลือกที่สถิติไม่เท่ากัน
นี่คือการทดสอบแบบสองด้าน
เราปฏิเสธสมมติฐานว่างถ้าสถิติการทดสอบอยู่ในพื้นที่วิกฤตของการแจกแจงการอ้างอิงซึ่งเป็นการแจกแจงแบบปกติมาตรฐานในกรณีนี้
ขนาดของภูมิภาคสำคัญขึ้นอยู่กับระดับของการทดสอบ สำหรับระดับความสำคัญของ 95% สถิติทดสอบตกอยู่ในภูมิภาคที่สำคัญถ้าหรือ<-1.96 (นี่คือและ quantiles ของการแจกแจงแบบปกติมาตรฐาน) มิฉะนั้นคุณล้มเหลวในการปฏิเสธสมมติฐานว่างและทั้งสองโมเดลมีความสัมพันธ์ทางสถิติαz>1.96z<−1.96α/21−α/2
คำถามที่ 1 - ความไวและความจำเพาะ
กลยุทธ์ทั่วไปสำหรับการเปรียบเทียบความไวและความเฉพาะเจาะจงคือการสังเกตว่าสถิติทั้งสองนี้มีจำนวนเท่ากับการอนุมานเชิงสถิติตามสัดส่วนและนี่เป็นปัญหามาตรฐานที่มีการศึกษาเป็นอย่างดี โดยเฉพาะความไวคือสัดส่วนของประชากร P ที่มีคะแนนมากกว่าบางเกณฑ์และในทำนองเดียวกันสำหรับประชากร wrt ที่ระบุ N:
t
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
จุดยึดหลักคือการพัฒนาการทดสอบที่เหมาะสมเนื่องจากสัดส่วนของตัวอย่างทั้งสองนั้นจะมีความสัมพันธ์กัน (ในขณะที่คุณใช้สองแบบจำลองกับข้อมูลการทดสอบเดียวกัน) นี่คือการแก้ไขในหน้า 111
จากการทดสอบเป็นพิเศษสถิติสรุปหลายอย่างจะลดลงเป็นสัดส่วนสำหรับแต่ละโค้งดังนั้นวิธีมาตรฐานสำหรับการเปรียบเทียบสัดส่วนสามารถนำมาใช้ ยกตัวอย่างเช่นค่าของสำหรับการแก้ไขเป็นสัดส่วนที่เป็นอัตราจำแนกสำหรับการแก้ไขเกณฑ์ทีเราสามารถเปรียบเทียบเส้นโค้งโดยใช้มาตรการเหล่านี้โดยใช้การทดสอบมาตรฐานเพื่อเปรียบเทียบสัดส่วน ตัวอย่างเช่นในกรณีที่ไม่มีการจับคู่เราสามารถใช้สถิติทดสอบโดยที่เป็นอัตราบวกที่แท้จริงสำหรับโค้งเป็นจุดที่เป็นปัญหาและคือ ผลรวมของความแปรปรวนของและ ...tpfpt(tp1−tp2)/s12tpiis212tp1tp2
อย่างไรก็ตามสำหรับกรณีที่จับคู่ใครสามารถได้รับการปรับที่อนุญาตให้ค่าความแปรปรวนร่วมระหว่างและแต่อีกทางเลือกหนึ่งคือใช้การทดสอบของ McNemar สำหรับสัดส่วนที่สัมพันธ์กัน (Marascuilo และ McSweeney, 1977)tp1tp2
การทดสอบ mcnemarนั้นเหมาะสมเมื่อคุณมีอาสาสมัครคนและแต่ละวิชาจะถูกทดสอบสองครั้งหนึ่งครั้งสำหรับผลลัพธ์สองขั้วแต่ละครั้ง ด้วยคำจำกัดความของความไวและความเฉพาะเจาะจงมันควรจะชัดเจนว่านี่เป็นการทดสอบที่เราต้องการเพราะคุณใช้สองรุ่นกับข้อมูลการทดสอบเดียวกันและคำนวณความไวและความเฉพาะเจาะจงในบางเกณฑ์N
การทดสอบ McNemar ใช้สถิติที่แตกต่างกัน แต่เป็นโมฆะและสมมติฐานทางเลือกที่คล้ายกัน ตัวอย่างเช่นเมื่อพิจารณาจากความไว , สมมติฐานคือการที่สัดส่วนและทางเลือกที่เป็นtp_2 การจัดสัดส่วนใหม่ให้เป็นจำนวนดิบแทนเราสามารถเขียนตารางฉุกเฉิน
ซึ่งนับเซลล์จะได้รับโดยการนับ ผลบวกจริงและเชิงลบที่ผิดพลาดตามแต่ละรุ่นtp1=tp2tp1≠tp2
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
และเรามีสถิติทดสอบ
ซึ่งกระจายเป็นการแจกแจงแบบไคสแควร์ที่มี 1 องศาอิสระ ด้วยระดับ , สมมติฐานถูกปฏิเสธสำหรับ3.841459
M=(b−c)2b+c
χ21α=95%M>3.841459
สำหรับความจำเพาะคุณสามารถใช้ขั้นตอนเดียวกันยกเว้นว่าคุณแทนที่กับ{}srPisrNj
คำถามที่ 2
ดูเหมือนว่ามันเพียงพอที่จะรวมผลลัพธ์โดยเฉลี่ยค่าการทำนายสำหรับผู้ตอบแต่ละคนดังนั้นสำหรับแต่ละรุ่นคุณมี 1 เวกเตอร์ของ 100 ค่าเฉลี่ยที่คาดการณ์ไว้ จากนั้นคำนวณ ROC AUC ความไวและสถิติความจำเพาะตามปกติราวกับว่าไม่มีโมเดลเดิมอยู่ สิ่งนี้สะท้อนให้เห็นถึงกลยุทธ์การสร้างแบบจำลองที่ใช้โมเดลของผู้ตอบแบบสอบถามทั้ง 5 คนเป็นหนึ่งใน "คณะกรรมการ" ของแบบจำลองคล้ายกับวงดนตรี