ช่วงความเชื่อมั่นสำหรับความถูกต้องของการจำแนกประเภทที่ผ่านการตรวจสอบความถูกต้อง

ฉันกำลังทำงานกับปัญหาการจัดหมวดหมู่ที่คำนวณความคล้ายคลึงกันระหว่างภาพเอ็กซเรย์อินพุตสองภาพ หากภาพเป็นของคนคนเดียวกัน (ป้ายกำกับของ 'ขวา') ระบบจะคำนวณตัวชี้วัดที่สูงกว่า ภาพอินพุตของคนสองคนที่แตกต่างกัน (ป้ายกำกับของ 'ผิด') จะส่งผลให้เมตริกต่ำลง

ฉันใช้การตรวจสอบความถูกต้องข้าม 10 ชั้นแบบแบ่งชั้นเพื่อคำนวณความน่าจะเป็นการแยกประเภท ขนาดตัวอย่างปัจจุบันของฉันอยู่ที่ประมาณ 40 แมตช์ที่ถูกต้องและ 80 แมตช์ที่ไม่ถูกต้องที่แต่ละดาต้าพอยน์เป็นเมตริกที่คำนวณได้ ฉันได้รับความน่าจะเป็นการแยกประเภทที่ 0.00 แต่ฉันต้องการการวิเคราะห์ช่วงความเชื่อมั่น / ข้อผิดพลาดบางอย่างเกี่ยวกับเรื่องนี้

ฉันมองหาการใช้ช่วงความมั่นใจในสัดส่วนทวินาม (ซึ่งฉันจะใช้ผลลัพธ์ของการตรวจสอบข้ามว่าเป็นการติดฉลากที่ถูกต้องหรือการติดฉลากที่ไม่ถูกต้องสำหรับจำนวนความสำเร็จของฉัน) อย่างไรก็ตามหนึ่งในสมมติฐานที่อยู่เบื้องหลังการวิเคราะห์ทวินามคือความน่าจะเป็นที่เหมือนกันของความสำเร็จสำหรับการทดลองแต่ละครั้งและฉันไม่แน่ใจว่าวิธีการจำแนกประเภทของ 'ถูกต้อง' หรือ 'ผิด' ในการตรวจสอบไขว้นั้น ความน่าจะเป็นเหมือนกันของความสำเร็จ

การวิเคราะห์อื่น ๆ ที่ฉันคิดได้คือทำซ้ำการตรวจสอบความถูกต้องข้าม X ครั้งและคำนวณค่าเฉลี่ย / ส่วนเบี่ยงเบนมาตรฐานของข้อผิดพลาดการจัดหมวดหมู่ แต่ฉันไม่แน่ใจว่าสิ่งนี้เหมาะสมหรือไม่เพราะฉันจะนำข้อมูลจาก ขนาดตัวอย่างค่อนข้างเล็กหลายครั้ง

ความคิดใด ๆ ฉันใช้ MATLAB สำหรับการวิเคราะห์ทั้งหมดของฉันและฉันมีกล่องเครื่องมือสถิติ จะขอบคุณความช่วยเหลือใด ๆ และทั้งหมด!

— ฌอน
แหล่งที่มา

ความน่าจะเป็นในการจำแนกประเภท 0.00 หมายความว่าคุณได้รับความถูกต้องในการจำแนกประเภท 100% ในการตรวจสอบความถูกต้องไขว้ทั้ง 10 ครั้ง

— อะมีบา

ใช่ถูกต้องแล้ว การพับแต่ละครั้งไม่มีผลต่อการจำแนกประเภท 0.00 ฉันรายงานหมายถึงจำนวนรวมของการจำแนกประเภท (0) จากจำนวนกรณีทดสอบทั้งหมด (120)

— ฌอน

BTW คุณหมายถึงอะไรโดยการตรวจสอบความถูกต้องแบบ "แบ่งชั้น"? ในการพับ CV แต่ละครั้งคุณมี 120/10 = 12 ตัวอย่างการทดสอบโดยมีการแข่งขัน 4 ครั้งและไม่ตรง 8 ครั้ง

— อะมีบา

ใช่นั่นคืออย่างน้อยที่สุดก็เป็นวิธีที่ฉันเข้าใจว่ามันถูกใช้ภายใน MATLAB แต่ละครั้งควรมีสัดส่วนเดียวกันกับฉลากของคลาส 'ถูกต้อง' / 'ผิด' ซึ่งก็คือ 1: 2

— ฌอน

คำตอบ:

อิทธิพลของความไม่แน่นอนในการทำนายแบบจำลองตัวแทนที่ต่างกัน

อย่างไรก็ตามหนึ่งในสมมติฐานที่อยู่เบื้องหลังการวิเคราะห์ทวินามคือความน่าจะเป็นที่เหมือนกันของความสำเร็จสำหรับการทดลองแต่ละครั้งและฉันไม่แน่ใจว่าวิธีการจำแนกประเภทของ 'ถูกต้อง' หรือ 'ผิด' ในการตรวจสอบไขว้นั้น ความน่าจะเป็นเหมือนกันของความสำเร็จ

ทีนี้, โดยทั่วไปแล้วความเท่ากันนั้นเป็นสมมติฐานที่จำเป็นเพื่อให้คุณรวมผลลัพธ์ของแบบจำลองตัวแทน

ในทางปฏิบัติสัญชาตญาณของคุณว่าข้อสันนิษฐานนี้อาจถูกละเมิดมักเป็นความจริง แต่คุณสามารถวัดได้ว่าเป็นกรณีนี้หรือไม่ นั่นคือสิ่งที่ฉันพบว่าการตรวจสอบข้ามซ้ำมีประโยชน์: ความเสถียรของการทำนายสำหรับกรณีเดียวกันโดยตัวแทนจำลองที่แตกต่างกันช่วยให้คุณตัดสินว่าแบบจำลองนั้นมีความเท่าเทียมกันหรือไม่

นี่เป็นรูปแบบของการตรวจสอบความถูกต้องแบบข้าม -fold ซ้ำแล้วซ้ำอีก (เรียกอีกอย่างว่า) : $k$
การตรวจสอบความถูกต้องข้าม k-fold ซ้ำแล้วซ้ำอีก

ชั้นเรียนมีสีแดงและสีน้ำเงิน วงกลมด้านขวาเป็นสัญลักษณ์ของการทำนาย ในการคำนวณซ้ำแต่ละครั้งจะมีการคาดการณ์ตัวอย่างแต่ละครั้งอย่างแน่นอน โดยปกติแล้วค่าเฉลี่ยขนาดใหญ่จะใช้เป็นค่าประมาณประสิทธิภาพโดยปริยายสมมติว่าประสิทธิภาพของตัวแทนรุ่นมีค่าเท่ากับ หากคุณมองหาตัวอย่างแต่ละตัวที่การทำนายที่ทำโดยตัวจำลองตัวแทนที่แตกต่างกัน (เช่นในคอลัมน์) คุณจะเห็นว่าการทำนายนั้นมีความเสถียรสำหรับตัวอย่างนี้อย่างไร $i \cdot k$

นอกจากนี้คุณยังสามารถคำนวณประสิทธิภาพสำหรับการวนซ้ำแต่ละครั้ง (บล็อก 3 แถวในผัง) ความแปรปรวนระหว่างสิ่งเหล่านี้หมายความว่าการสันนิษฐานว่าตัวแทนนางแบบจะเทียบเท่า (ต่อกันและยิ่งไปกว่านั้น "แกรนด์โมเดล" ที่สร้างขึ้นในทุกกรณี) จะไม่พบ แต่สิ่งนี้จะบอกคุณว่าคุณมีความไม่แน่นอนมากแค่ไหน สำหรับสัดส่วนทวินามฉันคิดว่าตราบใดที่ประสิทธิภาพที่แท้จริงเหมือนกัน (เช่นเป็นอิสระไม่ว่าจะเป็นกรณีเดียวกันเสมอจะทำนายผิดหรือว่าหมายเลขเดียวกัน แต่มีหลายกรณี แต่ทำนายผิด) ฉันไม่รู้ว่าจะมีใครสามารถคาดคะเนการแจกจ่ายเฉพาะสำหรับประสิทธิภาพของแบบจำลองตัวแทนได้หรือไม่ แต่ฉันคิดว่ามันไม่ว่าในกรณีใดข้อได้เปรียบเหนือการรายงานข้อผิดพลาดการจัดหมวดหมู่ทั่วไปในปัจจุบันถ้าคุณรายงานความไม่แน่นอนนั้นตัวแทนแบบจำลองถูกรวมเข้าด้วยกันแล้วสำหรับการทำซ้ำแต่ละครั้งความแปรปรวนของความไม่แน่นอนจะคร่าวๆ $k$ $k$

$\ll$
$n$ $k$ $i$

รูปวาดเป็นรูปที่ใหม่กว่าของรูป 5 ในบทความนี้: Beleites, C. & Salzer, R .: การประเมินและปรับปรุงเสถียรภาพของแบบจำลองทางเคมีในสถานการณ์ขนาดตัวอย่างขนาดเล็ก Anal Bioanal Chem, 390, 1261-1271 (2008) DOI: 10.1007 / s00216-007-1818-6
โปรดทราบว่าเมื่อเราเขียนบทความฉันยังไม่ได้ตระหนักถึงแหล่งที่มาของความแปรปรวนต่าง ๆ ที่ฉันอธิบายไว้ที่นี่อย่างเต็มที่ - โปรดจำไว้ว่า ฉันจึงคิดว่าการโต้แย้งสำหรับการประมาณขนาดตัวอย่างที่มีประสิทธิภาพที่ให้ไว้นั้นไม่ถูกต้องถึงแม้ว่าข้อสรุปของการประยุกต์ใช้ว่าประเภทของเนื้อเยื่อที่แตกต่างกันภายในผู้ป่วยแต่ละรายให้ข้อมูลโดยรวมเท่ากับผู้ป่วยรายใหม่ที่มีประเภทของเนื้อเยื่อที่กำหนด หลักฐานซึ่งชี้ให้เห็นด้วยวิธีนั้น) อย่างไรก็ตามฉันยังไม่แน่ใจเกี่ยวกับเรื่องนี้อย่างสมบูรณ์ (หรือจะทำอย่างไรให้ดีขึ้นและสามารถตรวจสอบได้) และปัญหานี้ไม่เกี่ยวข้องกับคำถามของคุณ

ประสิทธิภาพใดที่จะใช้สำหรับช่วงความเชื่อมั่นทวินาม

จนถึงตอนนี้ฉันใช้ประสิทธิภาพที่สังเกตได้โดยเฉลี่ยแล้ว นอกจากนี้คุณยังสามารถใช้ประสิทธิภาพที่สังเกตได้แย่ที่สุด: ยิ่งประสิทธิภาพที่สังเกตได้คือ 0.5 ยิ่งความแปรปรวนที่มากขึ้นและช่วงความมั่นใจ ดังนั้นช่วงความเชื่อมั่นของประสิทธิภาพที่สังเกตได้ใกล้เคียงกับ 0.5 จะให้ "ความปลอดภัย"

โปรดทราบว่าวิธีการบางอย่างในการคำนวณช่วงความเชื่อมั่นทวินามนั้นทำงานได้เช่นกันหากจำนวนความสำเร็จที่สังเกตได้ไม่ใช่จำนวนเต็ม ฉันใช้ "การรวมตัวของความน่าจะเป็นหลังแบบเบย์" ตามที่อธิบายไว้ใน
Ross, TD: ช่วงความเชื่อมั่นที่แม่นยำสำหรับสัดส่วนทวินามและการประมาณอัตราปัวซอง, Comput Biol Med, 33, 509-531 (2003) DOI: 10.1016 / S0010-4825 (03) 00019-2

(ฉันไม่รู้สำหรับ Matlab แต่ใน R คุณสามารถใช้binom::binom.bayesกับพารามิเตอร์รูปร่างทั้งชุดที่ 1)

$n$ แตกต่างกันไป (ฉันไม่รู้ว่าจะทำอย่างไรนอกจากการได้รับชุดข้อมูลการฝึกอบรมใหม่ "ทางร่างกาย")

ดูเพิ่มเติมที่: Bengio, Y. และ Grandvalet, Y: ไม่มีการประมาณค่าความแปรปรวนของการตรวจสอบความถูกต้องข้าม K-Fold, วารสารการวิจัยการเรียนรู้ของเครื่องจักร, 2004, 5, 1089-11051089-1105

(การคิดเพิ่มเติมเกี่ยวกับสิ่งเหล่านี้อยู่ในรายการวิจัยของฉันสิ่งที่ต้องทำ ... แต่เมื่อฉันมาจากวิทยาศาสตร์การทดลองฉันชอบที่จะเสริมข้อสรุปเชิงทฤษฎีและการจำลองด้วยข้อมูลการทดลองซึ่งยากที่นี่เพราะฉันต้องการขนาดใหญ่ ชุดกรณีอิสระสำหรับการทดสอบอ้างอิง)

ปรับปรุง: มันเป็นธรรมที่จะถือว่าการกระจายทางชีวภาพหรือไม่?

$k$

$n$ การประมาณโดยบอกว่าเรามีแหล่งที่มาของการเปลี่ยนแปลงเพิ่มเติม: ความไม่แน่นอน) หรือประสิทธิภาพเฉลี่ยสามารถใช้เป็นการประเมินแบบจุดโดยไม่มีเหตุผลเพิ่มเติม

$n$ $p$ $n$

— cbeleites ไม่มีความสุขกับ SX
แหล่งที่มา

สวัสดี @celeele ฉันเพิ่งแสดงความคิดเห็นว่าการวิเคราะห์ CV ของฉันมีค่าไม่ซ้ำกัน 2 ชุดสำหรับชุดข้อมูลนั้น (ชุดข้อมูลอื่น ๆ บางชุดมีค่าที่ไม่ซ้ำ N ค่าโดยที่ N มักน้อยกว่า 5) ตามที่อะมีบาอธิบายไว้ข้างต้น ได้รับสิ่งนี้ฉันจะแสดงให้เห็นว่าการคาดการณ์ของฉันเสถียรโดยใช้เพียงชุดข้อมูลและ CV เดียวของฉันได้อย่างไร เกี่ยวกับการแจกแจงแบบทวินามฉันกำลังพิจารณาช่วง Agresti-Coull (สามารถทำงานเพื่ออัตราความสำเร็จสูง / อัตราความสำเร็จ 100% โดยไม่ผิดพลาด) ดูเหมือนว่าคุณกำลังบอกว่าฉันสามารถใช้การแจกแจงทวินามได้ แต่ฉันก็ยังไม่ชัดเจนว่าฉันจะพิสูจน์ได้อย่างไรว่าสมมติฐานของความสำเร็จแบบเดียวกัน

— ฌอน

p

$p$

@ amoeba: ฉันไม่รู้ว่าจะรวมการแจกแจงทวินามกับการกระจายที่ไม่รู้จักเนื่องจากความไม่แน่นอนในช่วงความเชื่อมั่นเดียวได้อย่างไร ดังนั้นฉันจึงรายงานค่าเปอร์เซ็นไทล์ที่สังเกตสำหรับเสถียรภาพ (ใน) และทวินาม ci สำหรับขนาดตัวอย่างทดสอบ จำกัด วิธีการรวมพวกเขาเป็นหนึ่งในคำถามวิจัยที่ฉันเก็บไว้ในหัวของฉัน แต่จนถึงตอนนี้ฉันยังไม่พบวิธีแก้ปัญหาหรือพบใครก็ตามที่มี ฉันเดาว่าเรามาถึงแถวหน้าของการวิจัย ...

— cbeleites ไม่มีความสุขกับ SX

@Sean: คุณเห็นคำถามล่าสุดของฉันเกี่ยวกับปัญหาที่เกี่ยวข้องหรือไม่ มีการอภิปรายที่น่าสนใจ (สำหรับฉัน) เกิดขึ้นในความคิดเห็นและฉันกำลังทำงานกับสถานการณ์จำลองบางอย่างด้วยตัวเอง ฉันเชื่อว่าการสันนิษฐานของทวินามนั้นผิดอย่างมาก! คุณอาจสนใจอ้างอิงหลายอย่างที่มีให้ซึ่งอ้างว่าเป็นสิ่งเดียวกัน

— อะมีบา

@Sean: ฉันจะพยายามให้ทั้งสองกระทู้ปรับปรุงซึ่งหมายความว่าหลังจาก (และถ้า) ปัญหาได้รับการชี้แจงเพิ่มเติมฉันจะพยายามสรุปสถานการณ์ที่นั่นและเพื่อให้คำตอบใหม่ที่นี่ ในตอนนี้คุณสังเกตเห็นบทความนี้เชื่อมโยงในหัวข้ออื่น ๆ ? ผู้เขียนหารือเกี่ยวกับคำถามของคุณและให้ขั้นตอนการบูตที่พวกเขาอ้างว่าทำงานได้ดี ถ้าฉันจะตอบคำถามของคุณตอนนี้ฉันจะแนะนำขั้นตอนของพวกเขา แต่มันจะสมเหตุสมผลก่อนที่จะตรวจสอบ 24 กระดาษที่อ้างถึงกระดาษนั้น

— อะมีบา

ฉันคิดว่าความคิดของคุณในการตรวจสอบซ้ำหลายครั้งนั้นถูกต้อง

ทำซ้ำประวัติส่วนตัวของคุณสมมติว่า 1000 ครั้งแต่ละครั้งแยกข้อมูลของคุณออกเป็น 10 ส่วน (สำหรับ CV 10 เท่า) ในวิธีที่แตกต่างกัน (ไม่ได้สับเปลี่ยนป้าย) คุณจะได้รับการประเมินความแม่นยำของการจำแนกประเภท 1,000 ครั้ง แน่นอนว่าคุณจะใช้ข้อมูลเดิมซ้ำดังนั้นการประมาณ 1,000 ครั้งนี้จะไม่เป็นอิสระ แต่นี่เป็นขั้นตอนคล้ายกับ bootstrap: คุณสามารถเบี่ยงเบนมาตรฐานเหนือความถูกต้องเหล่านี้เป็นข้อผิดพลาดมาตรฐานของค่าเฉลี่ยของตัวประมาณความถูกต้องโดยรวมของคุณ หรือช่วงเปอร์เซ็นต์ไทล์ 95% เป็นช่วงความมั่นใจ 95%

หรือคุณสามารถรวมลูปการตรวจสอบข้ามและลูปบู๊ตสแตรปและเลือกสุ่ม (อาจแบ่งชั้นแบบสุ่ม) 10% ของข้อมูลของคุณเป็นชุดทดสอบและทำ 1,000 ครั้ง การใช้เหตุผลแบบเดียวกับข้างบนก็นำมาใช้เช่นกัน อย่างไรก็ตามสิ่งนี้จะส่งผลให้เกิดความแปรปรวนสูงกว่าการทำซ้ำดังนั้นฉันจึงคิดว่าขั้นตอนข้างต้นดีกว่า

หากอัตราการจำแนกประเภทของคุณเป็น 0.00 ตัวแยกประเภทของคุณจะทำให้เกิดข้อผิดพลาดเป็นศูนย์และหากสิ่งนี้เกิดขึ้นในการวนรอบการบูตแต่ละครั้งคุณจะได้รับช่วงความมั่นใจที่กว้างเป็นศูนย์ แต่นี่แปลว่าลักษณนามของคุณสมบูรณ์แบบมาก

— อะมีบา
แหล่งที่มา

สวัสดี @amoeba ขอบคุณสำหรับการตอบกลับของคุณ คุณจะอธิบายเพิ่มเติมเกี่ยวกับข้อเสนอแนะครั้งแรกของคุณในการทำ CV 1000 ซ้ำอีกครั้งโดยสุ่มสุ่มตัวอย่างหรือไม่ ควรมีสัดส่วนของชุดทดสอบที่กำหนดไว้ล่วงหน้า: ชุดฝึกอบรม (เช่น 10:90 สำหรับการตรวจสอบข้าม 10 เท่า) ฉันเดาว่าฉันยังไม่ชัดเจนว่าการตรวจสอบซ้ำ 10 ครั้งซ้ำ ๆ จะเพิ่มความแปรปรวนได้อย่างไรเมื่อเวลาผ่านไป

— ฌอน

ฉันเกรงว่าขั้นตอนที่สองที่ @amoeba แนะนำนั้นมองโลกในแง่ดีเกินไป: ตัวแยกประเภทที่ไม่สมบูรณ์แบบสามารถมีประสิทธิภาพที่สมบูรณ์แบบบนชุดข้อมูลที่กำหนด (ตัวอย่างเช่นสมมติว่าคุณมีตัวอย่างเพียง 4 ตัวเท่านั้น - มันคือ 1: 8 เพื่อจัดหมวดหมู่ทั้งหมด ถูกต้องโดยบังเอิญ) ดังที่อะมีบาระบุไว้การวัดความแปรปรวนของการจัดสรรการทดสอบรถไฟที่แตกต่างกันจะสร้างช่วงความเชื่อมั่นแบบไวด์ ธ 0 ซึ่งไม่ถูกต้องอย่างชัดเจนในกรณีนี้

— Trisoloriansunscreen

ฉันคิดว่าในที่สุดปัญหานี้เกิดขึ้นเมื่อพบความน่าจะเป็นในการสังเกตข้อมูลที่แตกต่างจากที่ฉันไม่ได้สังเกต การรับช่วงความมั่นใจสำหรับตัวอย่างของฉันคือสิ่งที่ @amoeba แนะนำสำหรับคำถามเดิมของฉัน (ฉันใช้การพับซ้ำสำหรับการทำซ้ำ CV แต่ละครั้ง) และผลลัพธ์ดูสมจริงยิ่งขึ้น (95% CI: [0.0028, 0.0033]) อย่างไรก็ตามฉันไม่รู้ว่ามีเทคนิคอื่นที่ดีกว่าสำหรับการทำนายข้อมูลในอนาคตหรือไม่ บางทีแนวทางตามรูปแบบที่ฉันพอดีกับเส้นโค้งกับข้อมูลของฉันและคำนวณการทับซ้อนของพวกเขา?

— ฌอน

@ amoeba: ขอบคุณสำหรับการชี้แจงฉันเดาว่าฉันไม่ได้อ่านคำตอบของคุณอย่างรอบคอบพอ แต่ฉันยังคงมีปัญหาเกี่ยวกับอคติในแง่ดีของวิธีนี้ (ทั้งสองขั้นตอน) โดยการวัดความแม่นยำในขณะที่พยายามแยก CV ที่แตกต่างกันคุณประเมินความแปรปรวนที่เกิดจากการแยกโดยพลการ แต่คุณไม่สนใจข้อเท็จจริงที่ว่าข้อมูลทั้งหมดของคุณเป็นตัวอย่างที่สุ่มจากการสังเกตจำนวนมาก (ซึ่งคุณไม่ได้รวบรวม) หากคุณมีชุดข้อมูลขนาดเล็กที่บังเอิญได้รับประสิทธิภาพที่สมบูรณ์แบบ (โดยไม่คำนึงถึงการแบ่ง CV) ช่วงความมั่นใจของคุณเป็นศูนย์และสิ่งนี้ไม่ถูกต้อง

— Trisoloriansunscreen

@ amoeba: มันเป็นเรื่องยากเนื่องจากคุณไม่สามารถบูตข้อสังเกตด้วยตัวเองได้ (พิจารณาตัวจําแนกเพื่อนบ้านที่ใกล้ที่สุดในกรณีดังกล่าว) ฉันกำลังดิ้นรนกับปัญหานั้นเองมาดูกันว่ามีใครคิดบ้างไหม

— Trisoloriansunscreen

ข้อผิดพลาดการจำแนกเป็นทั้งไม่ต่อเนื่องและกฎการให้คะแนนที่ไม่เหมาะสม มีความแม่นยำต่ำและปรับให้เหมาะสมกับคุณสมบัติที่ไม่ถูกต้องและให้น้ำหนักที่ไม่ถูกต้อง

— Frank Harrell
แหล่งที่มา

นี่อาจเป็นปัญหาสำหรับ OP ไม่ได้หากเขาได้รับความถูกต้องของการจำแนกข้ามประเภทที่ผ่านการตรวจสอบความถูกต้อง 99-100%

— อะมีบา

@ อะมีบา: มันอาจเป็นปัญหาได้เช่นกันหากสังเกตสัดส่วนที่ถูกต้องใกล้ 100 หรือ 0%: ตรงกันข้ามกับมาตรการวัดผลงานที่ต้องอาศัยคะแนนต่อเนื่องการทำงานทุกรูปแบบที่วัดได้หลังจากการแบ่งขั้ว (การชุบแข็ง) คะแนนจำแนกต่อเนื่องไม่สามารถบ่งชี้ได้ การคาดการณ์ใกล้เคียงกับกรอบการตัดสินใจตราบใดที่ยังอยู่ในด้านที่ถูกต้อง อย่างไรก็ตาม IMHO มีเหตุผลที่ถูกต้องในการรายงานการวัดประสิทธิภาพตามสัดส่วน (เช่นหากผู้อ่าน / ผู้ทำงานร่วมกันเข้าใจ แต่ไม่เข้าใจเช่นคะแนน Brier) ฉันไม่ต้องการที่จะเปิดมัน ...

— cbeleites ไม่มีความสุขกับ SX

... สายการอภิปรายเนื่องจากไม่มีข้อบ่งชี้ของการปรับให้เหมาะสมในคำถาม (ซึ่งเป็นสิ่งที่สำคัญจริงๆ)

— cbeleites ไม่มีความสุขกับ SX

หากคุณคำนวณสัดส่วนที่จำแนกว่า "ถูกต้อง" คุณต้องดำเนินการด้วยเหตุผลเช่นเพื่อการตัดสินหรือดำเนินการ สัดส่วนนั้นทำให้เข้าใจผิดสำหรับวัตถุประสงค์เหล่านี้

— Frank Harrell

@ FrankHarrell: อืมเหตุผลที่ฉันเดาก็คือการรายงานลงในกระดาษ คุณคิดว่าคนควรหยุดการรายงานความถูกต้องของการจำแนกประเภทหรือไม่?

— อะมีบา