นัยสำคัญทางสถิติ (p-value) สำหรับการเปรียบเทียบตัวแยกประเภทสองตัวที่เกี่ยวข้องกับ (ค่าเฉลี่ย) ROC AUC ความไวและความเฉพาะเจาะจง


14

ฉันมีชุดทดสอบ 100 กรณีและตัวแยกประเภทสองตัว

ฉันสร้างการคาดคะเนและคำนวณ ROC AUC ความไวและความเฉพาะเจาะจงสำหรับตัวแยกประเภททั้งสอง

คำถามที่ 1: ฉันจะคำนวณ p-value เพื่อตรวจสอบว่ามีค่าใดดีกว่าค่าอื่น ๆ ที่เกี่ยวข้องกับคะแนนทั้งหมด (ROC AUC, ความไว, ความเฉพาะเจาะจง) อย่างมีนัยสำคัญหรือไม่


ตอนนี้สำหรับชุดทดสอบ 100 ชุดเดียวกันฉันมีการกำหนดคุณสมบัติที่แตกต่างและเป็นอิสระสำหรับแต่ละกรณี นี่เป็นเพราะคุณสมบัติของฉันได้รับการแก้ไข แต่เป็นแบบอัตนัยและมีให้โดยหลายวิชา (5)

ดังนั้นฉันจึงประเมินตัวแยกประเภทสองของฉันอีกครั้งสำหรับชุดทดสอบ "5" ของฉันและได้รับ 5 ROC AUCs ความไว 5 และความเฉพาะเจาะจง 5 ประการสำหรับตัวแยกประเภททั้งสอง จากนั้นฉันคำนวณค่าเฉลี่ยของการวัดประสิทธิภาพสำหรับ 5 วิชา (ROC AUC หมายถึงความไวและความจำเพาะเฉลี่ย) สำหรับตัวแยกประเภททั้งสอง

คำถามที่ 2: ฉันจะคำนวณค่า p-value เพื่อตรวจสอบว่ามีค่าใดดีกว่าค่าเฉลี่ยอย่างมีนัยสำคัญ (หมายถึง ROC AUC ค่าเฉลี่ยความอ่อนไหวค่าเฉลี่ยความจำเพาะ)


รู้รอบด้วยตัวอย่างของไพ ธ อน (ดีกว่า) หรือรหัส MatLab เป็นมากกว่าการต้อนรับ


ทำการเปรียบเทียบโดยตรงของความแม่นยำความถูกต้อง AuC เพื่อให้ได้ลักษณนามที่ดีที่สุดในทั้งสอง ค่า P ไม่สมเหตุสมผลที่นี่ P-ค่าใช้ในบริบทของการประเมินรูปแบบถ้าจะทำดีกว่าสุ่ม / 50-50 ที่ได้รับมอบหมาย (เป็น null / ทดสอบสมมติฐานอื่น ๆ )
Nishad

2
ก่อนอื่นฉันไม่เห็นด้วยว่าการเปรียบเทียบการวัดประสิทธิภาพทั้งสองโดยใช้ p-value ไม่สมเหตุสมผล ฉันเห็นว่าตัวแยกประเภทหนึ่งมี AUC 0.80 และอีก 0.85 สมมติฐานว่างของฉันคือว่าไม่มีความแตกต่างในการทำงานของคลาสสิฟายด์ทั้งสอง ฉันต้องการทราบว่าความแตกต่างนั้นมีนัยสำคัญทางสถิติหรือไม่
kostek

2
ประการที่สองฉันไม่ได้สร้างแบบจำลอง 5 รุ่น ฉันมีสองรุ่นที่ผ่านการฝึกอบรมในชุดการฝึกอบรมที่แยกต่างหากและตอนนี้ฉันประเมินพวกเขาใน "รุ่น" 5 ชุดที่แตกต่าง ฉันมีประสิทธิภาพเฉลี่ยสำหรับตัวแยกประเภท (เช่น 0.81 AUC และ 0.84 AUC) และต้องการตรวจสอบว่าความแตกต่างนั้นมีนัยสำคัญทางสถิติหรือไม่
kostek

1
ฉันจะไม่พูดว่าสิ่งที่ฉันทำอยู่ใกล้กับการตรวจสอบข้าม ในกรณีของฉันค่าของคุณสมบัติขึ้นอยู่กับวัตถุที่ให้มา ฉันรู้ว่า AUC สามารถใช้เพื่อเปรียบเทียบแบบจำลองได้ แต่ฉันต้องการทราบว่าในการตั้งค่าของฉันผลลัพธ์ของการเปรียบเทียบของฉันนั้นมีนัยสำคัญทางสถิติหรือไม่ ฉันแน่ใจว่ามันสามารถทำได้และมันทำให้รู้สึกมากที่จะทำ คำถามของฉันคือทำอย่างไร
kostek

3
ฉันไม่แน่ใจว่า @Nishad กำลังทำอะไรอยู่คุณสามารถและควรใช้การทดสอบสมมติฐานเพื่อตรวจสอบว่าแบบจำลองของคุณแตกต่างกันอย่างมีนัยสำคัญหรือไม่ ค่าเบี่ยงเบนมาตรฐานของเมทริกของคุณมีอยู่และจะเล็กลงเมื่อขนาดตัวอย่างเพิ่มขึ้น (สิ่งอื่น ๆ ทั้งหมดเท่ากัน) ความแตกต่าง AUC ระหว่าง 0.8 และ 0.9 อาจไม่สำคัญหากคุณมีเพียง 10 ตัวอย่าง แต่อาจมีความสำคัญมากหากคุณมีตัวอย่าง 10M ฉันไม่เห็นความสัมพันธ์ใด ๆ กับการตรวจสอบข้ามเช่นกัน จะลงคะแนนความคิดเห็นถ้าฉันทำได้
นิวเคลียร์วัง

คำตอบ:


11

Wojtek J. Krzanowski และ David J. Hand ROC Curves สำหรับข้อมูลอย่างต่อเนื่อง (2009) เป็นข้อมูลอ้างอิงที่ดีสำหรับทุกสิ่งที่เกี่ยวข้องกับ ROC curves มันรวบรวมผลลัพธ์จำนวนมากในสิ่งที่เป็นฐานวรรณกรรมที่กว้างใหญ่ที่น่าหงุดหงิดซึ่งมักจะใช้คำศัพท์ที่แตกต่างกันเพื่อหารือเกี่ยวกับหัวข้อเดียวกัน

นอกจากนี้หนังสือเล่มนี้เสนอความเห็นและการเปรียบเทียบวิธีการทางเลือกที่ได้รับมาเพื่อประเมินปริมาณเดียวกันและชี้ให้เห็นว่าวิธีการบางอย่างทำให้สมมติฐานที่ไม่สามารถป้องกันได้ในบริบทเฉพาะ นี่เป็นบริบทเช่นนั้น คำตอบอื่น ๆ รายงานวิธีการของ Hanley & McNeil ซึ่งสมมติว่าแบบจำลอง binormal สำหรับการแจกแจงคะแนนซึ่งอาจไม่เหมาะสมในกรณีที่การแจกแจงคะแนนชั้นเรียนไม่ปกติ (ใกล้เคียง) ข้อสันนิษฐานของคะแนนการแจกแจงแบบปกติดูเหมือนจะไม่เหมาะสมโดยเฉพาะอย่างยิ่งในบริบทสมัยใหม่โมเดลทั่วไปทั่วไปเช่นมีแนวโน้มที่จะสร้างคะแนนด้วยการแจกแจง "อ่างอาบน้ำ" สำหรับงานการจำแนกประเภท (นั่นคือการแจกแจงที่มีความหนาแน่นสูง )

คำถามที่ 1 - AUC

ส่วนที่ 6.3 อธิบายการเปรียบเทียบ ROC AUC สำหรับสอง ROC curves (pp 113-114) โดยเฉพาะอย่างยิ่งความเข้าใจของฉันคือว่าทั้งสองรุ่นมีความสัมพันธ์กันดังนั้นข้อมูลเกี่ยวกับวิธีการคำนวณมีความสำคัญอย่างยิ่งที่นี่; มิฉะนั้นสถิติการทดสอบของคุณจะมีอคติเพราะไม่ได้มีส่วนเกี่ยวข้องกับความสัมพันธ์r

สำหรับกรณีของเส้นโค้ง ROC ที่ไม่ได้เชื่อมโยงซึ่งไม่ได้อยู่บนสมมติฐานการแจกแจงแบบพารามิเตอร์ใด ๆ สถิติสำหรับ tets และช่วงความเชื่อมั่นเมื่อเปรียบเทียบ AUC สามารถตรงไปตรงมาตามการประมาณการและ^ AUC 2ของค่า AUC และประมาณการค่าเบี่ยงเบนมาตรฐานS 1และS 2ตามที่กำหนดในหัวข้อ 3.5.1:AUC^1AUC^2S1S2

Z=AUC^1AUC^2S12+S22

ในการขยายการทดสอบดังกล่าวไปยังกรณีที่มีการใช้ข้อมูลเดียวกันสำหรับตัวแยกประเภททั้งสองเราต้องคำนึงถึงความสัมพันธ์ระหว่างการประมาณ AUC:

z=AUC^1AUC^2S12+S22rS1S2

โดยที่คือค่าประมาณความสัมพันธ์นี้ Hanley และ McNeil (1983) ทำส่วนขยายโดยอาศัยการวิเคราะห์ของพวกเขาในกรณีปกติ แต่ให้ตารางแสดงวิธีการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ประมาณrจากความสัมพันธ์r Pของตัวแยกประเภทสองภายในคลาส P และความสัมพันธ์ของr nของตัวแยกประเภทสองตัวภายในคลาส N โดยบอกว่าได้รับมาทางคณิตศาสตร์เมื่อมีการร้องขอ ผู้เขียนคนอื่น ๆ (เช่น Zou, 2001) ได้พัฒนาแบบทดสอบตามแบบจำลองสองชั้นโดยสมมติว่าการแปลงที่เหมาะสมสามารถพบได้ซึ่งจะเปลี่ยนการแจกแจงคะแนนของคลาส P และ N เป็นปกติพร้อมกันrrrPrn

Uk2

U

AUC^=1nNnPi=1nNj=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,,nPPsNj,j=1,,nNNksNjr,j=1nNsPir,j=1,,nPAUC^r,r=1,,kk กำหนด

V r 01 =1

V10r=1nNj=1nN[I(sPir>sNjr)+12I(sPir=sNjr)],i=1,,nP
และ
V01r=1nPi=1nP[I(sPir>sNjr)+12I(sPir=sNjr)],j=1,,nN

ถัดไปกำหนด matrixด้วยองค์ประกอบ th และ matrixด้วยองค์ประกอบ th จากนั้นเมทริกซ์ความแปรปรวนร่วม estiamted สำหรับเวกเตอร์ของพื้นที่โดยประมาณภายใต้เส้นโค้งคือ k×kW10(r,s)

w10r,s=1nP1i=1nP[V10r(sPi)AUC^r][V10s(sPi)AUC^s]
k×kW01(r,s)
w01r,s=1nN1i=1nN[V01r(sNi)AUC^r][V01s(sNi)AUC^s]
(AUC^1,,AUC^k)
W=1nPW10+1nNW01
พร้อมองค์ประกอบ . นี่คือการวางนัยทั่วไปของผลลัพธ์สำหรับการประมาณความแปรปรวนของ AUC ที่ประเมินค่าเพียงครั้งเดียวเช่นกันซึ่งให้ไว้ในหัวข้อ 3.5.1 ในกรณีที่มีตัวจําแนกสองตัวความสัมพันธ์เชิงประจักษ์ระหว่าง AUCs โดยประมาณนั้นได้รับโดยซึ่งสามารถใช้ในด้านบนwr,srw1,2w1,1w2,2z

เนื่องจากคำตอบอื่นให้นิพจน์ของ Hanley และ McNeil สำหรับตัวประมาณค่าความแปรปรวน AUC ที่นี่ฉันจะสร้างตัวประมาณ DeLong จาก p 68:

วิธีการทางเลือกเนื่องจาก DeLong et al (1988) และแบบสุดขั้วโดย Pepe (2003) อาจทำให้การประมาณการง่ายขึ้นและเป็นแนวทางที่นำเสนอแนวคิดที่มีประโยชน์พิเศษของค่าตำแหน่ง ค่าตำแหน่งของคะแนนมีการอ้างอิงถึงประชากรที่ระบุเป็นหน้าที่ของผู้รอดชีวิตประชากรที่sนี้ค่าตำแหน่งสำหรับในประชากร N คือและประชากร P มันเป็น(s) การประเมินเชิงประจักษ์ของค่าตำแหน่งจะได้รับตามสัดส่วนที่ชัดเจน ดังนั้นค่าตำแหน่งของการสังเกตในประชากร P แสดงถึงเป็นสัดส่วนของค่าตัวอย่างจาก P ที่เกินsss1F(s)s1G(s)sNisNiPsNiและคือความแปรปรวนของค่าตำแหน่งของแต่ละการสังเกตจาก N ที่เกี่ยวข้องกับประชากร P ...var(sPiN)

การประเมินความแปรปรวนของ DeLong et al (1988) ของได้รับในรูปของความแปรปรวนเหล่านี้: AUC^

s2(AUC^)=1nPvar(sPiN)+1nNvar(sNiP)

โปรดทราบว่าเป็นฟังก์ชันการแจกแจงสะสมคะแนนในประชากร N และเป็นฟังก์ชันการแจกแจงสะสมคะแนนในประชากรพีวิธีมาตรฐานในการประมาณการและคือการใช้ecdfหนังสือเล่มนี้ยังมีวิธีการทางเลือกอื่น ๆ ในการประมาณค่า ecdf เช่นการประมาณความหนาแน่นของเคอร์เนล แต่นั่นอยู่นอกขอบเขตของคำตอบนี้FGFG

สถิติและอาจจะถือว่าเป็นค่าเบี่ยงเบนมาตรฐานและการทดสอบทางสถิติของสมมติฐานว่างดำเนินไปตามปกติ (ดูเพิ่มเติมที่: )Zz

นี่เป็นโครงร่างระดับสูงที่เรียบง่ายของวิธีการทดสอบสมมติฐาน:

  • การทดสอบในคำพูดของคุณ "ว่าตัวแยกประเภทหนึ่งดีกว่าตัวอื่นอย่างมีนัยสำคัญหรือไม่" สามารถใช้ถ้อยคำใหม่เป็นการทดสอบสมมติฐานว่าง ๆ ว่าแบบจำลองทั้งสองมี AUC ที่เท่าเทียมกันทางสถิติเทียบกับสมมติฐานทางเลือกที่สถิติไม่เท่ากัน

  • นี่คือการทดสอบแบบสองด้าน

  • เราปฏิเสธสมมติฐานว่างถ้าสถิติการทดสอบอยู่ในพื้นที่วิกฤตของการแจกแจงการอ้างอิงซึ่งเป็นการแจกแจงแบบปกติมาตรฐานในกรณีนี้

  • ขนาดของภูมิภาคสำคัญขึ้นอยู่กับระดับของการทดสอบ สำหรับระดับความสำคัญของ 95% สถิติทดสอบตกอยู่ในภูมิภาคที่สำคัญถ้าหรือ<-1.96 (นี่คือและ quantiles ของการแจกแจงแบบปกติมาตรฐาน) มิฉะนั้นคุณล้มเหลวในการปฏิเสธสมมติฐานว่างและทั้งสองโมเดลมีความสัมพันธ์ทางสถิติαz>1.96z<1.96α/21α/2

คำถามที่ 1 - ความไวและความจำเพาะ

กลยุทธ์ทั่วไปสำหรับการเปรียบเทียบความไวและความเฉพาะเจาะจงคือการสังเกตว่าสถิติทั้งสองนี้มีจำนวนเท่ากับการอนุมานเชิงสถิติตามสัดส่วนและนี่เป็นปัญหามาตรฐานที่มีการศึกษาเป็นอย่างดี โดยเฉพาะความไวคือสัดส่วนของประชากร P ที่มีคะแนนมากกว่าบางเกณฑ์และในทำนองเดียวกันสำหรับประชากร wrt ที่ระบุ N: t

sensitivity=tp=P(sP>t)1specificity=fp=P(sN>t)

จุดยึดหลักคือการพัฒนาการทดสอบที่เหมาะสมเนื่องจากสัดส่วนของตัวอย่างทั้งสองนั้นจะมีความสัมพันธ์กัน (ในขณะที่คุณใช้สองแบบจำลองกับข้อมูลการทดสอบเดียวกัน) นี่คือการแก้ไขในหน้า 111

จากการทดสอบเป็นพิเศษสถิติสรุปหลายอย่างจะลดลงเป็นสัดส่วนสำหรับแต่ละโค้งดังนั้นวิธีมาตรฐานสำหรับการเปรียบเทียบสัดส่วนสามารถนำมาใช้ ยกตัวอย่างเช่นค่าของสำหรับการแก้ไขเป็นสัดส่วนที่เป็นอัตราจำแนกสำหรับการแก้ไขเกณฑ์ทีเราสามารถเปรียบเทียบเส้นโค้งโดยใช้มาตรการเหล่านี้โดยใช้การทดสอบมาตรฐานเพื่อเปรียบเทียบสัดส่วน ตัวอย่างเช่นในกรณีที่ไม่มีการจับคู่เราสามารถใช้สถิติทดสอบโดยที่เป็นอัตราบวกที่แท้จริงสำหรับโค้งเป็นจุดที่เป็นปัญหาและคือ ผลรวมของความแปรปรวนของและ ...tpfpt(tp1tp2)/s12tpiis122tp1tp2

อย่างไรก็ตามสำหรับกรณีที่จับคู่ใครสามารถได้รับการปรับที่อนุญาตให้ค่าความแปรปรวนร่วมระหว่างและแต่อีกทางเลือกหนึ่งคือใช้การทดสอบของ McNemar สำหรับสัดส่วนที่สัมพันธ์กัน (Marascuilo และ McSweeney, 1977)tp1tp2

การนั้นเหมาะสมเมื่อคุณมีอาสาสมัครคนและแต่ละวิชาจะถูกทดสอบสองครั้งหนึ่งครั้งสำหรับผลลัพธ์สองขั้วแต่ละครั้ง ด้วยคำจำกัดความของความไวและความเฉพาะเจาะจงมันควรจะชัดเจนว่านี่เป็นการทดสอบที่เราต้องการเพราะคุณใช้สองรุ่นกับข้อมูลการทดสอบเดียวกันและคำนวณความไวและความเฉพาะเจาะจงในบางเกณฑ์N

การทดสอบ McNemar ใช้สถิติที่แตกต่างกัน แต่เป็นโมฆะและสมมติฐานทางเลือกที่คล้ายกัน ตัวอย่างเช่นเมื่อพิจารณาจากความไว , สมมติฐานคือการที่สัดส่วนและทางเลือกที่เป็นtp_2 การจัดสัดส่วนใหม่ให้เป็นจำนวนดิบแทนเราสามารถเขียนตารางฉุกเฉิน ซึ่งนับเซลล์จะได้รับโดยการนับ ผลบวกจริงและเชิงลบที่ผิดพลาดตามแต่ละรุ่นtp1=tp2tp1tp2

Model 1 Positive at tModel 1 Negative at tModel 2 Positive at tabModel 2 Negative at tcd

a=i=1nPI(sPi1>t)I(sPi2>t)b=i=1nPI(sPi1t)I(sPi2>t)c=i=1nPI(sPi1>t)I(sPi2t)d=i=1nPI(sPi1t)I(sPi2t)

และเรามีสถิติทดสอบ ซึ่งกระจายเป็นการแจกแจงแบบไคสแควร์ที่มี 1 องศาอิสระ ด้วยระดับ , สมมติฐานถูกปฏิเสธสำหรับ3.841459

M=(bc)2b+c
χ12α=95%M>3.841459

สำหรับความจำเพาะคุณสามารถใช้ขั้นตอนเดียวกันยกเว้นว่าคุณแทนที่กับ{}sPirsNjr

คำถามที่ 2

ดูเหมือนว่ามันเพียงพอที่จะรวมผลลัพธ์โดยเฉลี่ยค่าการทำนายสำหรับผู้ตอบแต่ละคนดังนั้นสำหรับแต่ละรุ่นคุณมี 1 เวกเตอร์ของ 100 ค่าเฉลี่ยที่คาดการณ์ไว้ จากนั้นคำนวณ ROC AUC ความไวและสถิติความจำเพาะตามปกติราวกับว่าไม่มีโมเดลเดิมอยู่ สิ่งนี้สะท้อนให้เห็นถึงกลยุทธ์การสร้างแบบจำลองที่ใช้โมเดลของผู้ตอบแบบสอบถามทั้ง 5 คนเป็นหนึ่งใน "คณะกรรมการ" ของแบบจำลองคล้ายกับวงดนตรี


ขอบคุณสำหรับคำตอบของคุณและให้การอ้างอิง สิ่งที่เกี่ยวกับค่า p สำหรับความไวและความจำเพาะ?
kostek

สำหรับไตรมาสที่ 1 หมายความว่าไม่มีความแตกต่างระหว่างการคำนวณ p-value สำหรับความไวและความเฉพาะเจาะจงและพวกเขาทั้งสองมีค่า p เดียวกันเสมอและฉันเพียงแค่สร้างตารางฉุกเฉินและเรียกใช้การทดสอบ McNemar กับมันหรือไม่
kostek

ไม่คุณต้องทำการทดสอบหนึ่งรายการสำหรับแต่ละรายการ
Sycorax พูดว่า Reinstate Monica

นั่นคือคำตอบที่ละเอียดมากขอบคุณ เกี่ยวกับการทดสอบ McNemar; สิ่งที่ว่า ? สัดส่วนเหล่านี้คืออะไร? a,b,c,d
Drey

@ เดรย์พวกเขาไม่ใช่สัดส่วน พวกเขานับ ฉันทำสิ่งนี้อย่างชัดเจนในการแก้ไข
Sycorax พูดว่า Reinstate Monica

2

ผมขอให้สั้นคำตอบเพราะคู่มือนี้จะอธิบายมากขึ้นและดีขึ้น

โดยพื้นฐานแล้วคุณมีจำนวน True Postives ( ) และจำนวน True Negatives ( ) ของคุณ นอกจากนี้คุณยังมี AUC, A. ข้อผิดพลาดมาตรฐานของ A นี้คือ:nTPnTN

SEA=A(1A)+(nTP1)(Q1A2)+(nTN1)(Q2A2)nTPnTN

กับและA)Q1=A/(2A)Q2=2A2/(1+A)

ในการเปรียบเทียบสอง AUC คุณต้องคำนวณ SE ของทั้งคู่โดยใช้:

SEA1A2=(SEA1)2+(SEA2)22r(SEA1)(SEA2)

โดยที่คือปริมาณที่แสดงถึงความสัมพันธ์ที่เกิดขึ้นระหว่างสองพื้นที่โดยการศึกษาชุดกรณีเดียวกัน หากกรณีของคุณแตกต่างกันดังนั้น ; ไม่เช่นนั้นคุณจะต้องค้นหามัน (ตารางที่ 1 หน้า 3 ในบทความที่มีให้ใช้อย่างอิสระ)rr=0

ระบุว่าคุณคำนวณ -Score โดยz

z=(A1A2)/SEA1A2

จากตรงนั้นคุณสามารถคำนวณค่า p โดยใช้ความหนาแน่นของความน่าจะเป็นของการแจกแจงแบบปกติมาตรฐาน หรือเพียงใช้เครื่องคิดเลขนี้

นี้หวังว่าคำตอบของคำถามที่ 1 - อย่างน้อยส่วนหนึ่งเปรียบเทียบ AUC Sens / Spec ได้รับการคุ้มครองโดย ROC / AUC แล้ว มิฉะนั้นคำตอบที่ฉันคิดว่าอยู่ในคำถาม 2

สำหรับคำถามที่ 2 , เซ็นทรัล จำกัด ทฤษฎีบทบอกเราว่าสถิติสรุปของคุณจะเป็นไปตามการแจกแจงแบบปกติ ดังนั้นฉันคิดว่าการทดสอบ t ง่าย ๆ จะพอเพียง (5 การวัดของตัวจําแนกหนึ่งต่อ 5 การวัดของตัวจําแนกที่สองที่การวัดอาจเป็น AUC, sens, spec)

แก้ไข: สูตรที่แก้ไขสำหรับ ( )- 2 r SE2r


ขอบคุณสำหรับลิงค์ที่ให้ไว้ สำหรับคำถามที่ 1 ถ้าฉันตั้งค่า A เป็นความไวหรือความเฉพาะเจาะจงสมการของ SE และ z-Score จะถืออยู่หรือไม่
kostek

ไม่เพราะ sens จะจัดการกับ TP เท่านั้นและข้อมูลจำเพาะจะจัดการกับ TNs เป็นไปได้หรือไม่ที่จะคำนวณช่วงความเชื่อมั่นสำหรับ sens / spec ด้วยสัดส่วน Binomial CIแต่ต้องระวัง (ขนาดตัวอย่างเล็ก?) คุณจะ Sens หรือสเป็ค หาก CIs ทับซ้อนในการเปรียบเทียบของคุณความแตกต่างจะไม่สำคัญทางสถิติภายใต้ระดับอัลฟ่า p^
Drey

0

สำหรับคำถามที่ 1 @Sycorax ให้คำตอบที่ครอบคลุม

สำหรับคำถามที่ 2 เพื่อความรู้ที่ดีที่สุดของฉันการคาดคะเนค่าเฉลี่ยจากวิชาไม่ถูกต้อง ฉันตัดสินใจใช้ bootstrapping เพื่อคำนวณค่า p และเปรียบเทียบแบบจำลอง

ในกรณีนี้ขั้นตอนดังต่อไปนี้:

For N iterations:
  sample 5 subjects with replacement
  sample 100 test cases with replacement
  compute mean performance of sampled subjects on sampled cases for model M1
  compute mean performance of sampled subjects on sampled cases for model M2
  take the difference of mean performance between M1 and M2
p-value equals to the proportion of differences smaller or equal than 0

ขั้นตอนนี้ดำเนินการทดสอบแบบด้านเดียวและถือว่า M1 หมายถึงประสิทธิภาพ> M2 หมายถึงประสิทธิภาพ

การใช้ Python ในการบูตสแตรปสำหรับการคำนวณค่า p เปรียบเทียบผู้อ่านหลายคนสามารถพบได้ใน repo GitHub นี้: https://github.com/mateuszbuda/ml-stat-util

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.