ตรวจสอบว่าการปรับปรุงความแม่นยำมีความสำคัญหรือไม่


14

สมมติว่าฉันมีอัลกอริทึมที่แบ่งสิ่งออกเป็นสองประเภท ฉันสามารถวัดความแม่นยำของอัลกอริทึมในการทดสอบ 1,000 รายการ - สมมติว่า 80% ของสิ่งต่าง ๆ ได้รับการจัดประเภทอย่างถูกต้อง

สมมติว่าฉันปรับเปลี่ยนอัลกอริทึมอย่างใดเพื่อให้ 81% ของสิ่งต่าง ๆ ถูกจัดประเภทอย่างถูกต้อง

สถิติสามารถบอกอะไรฉันได้หรือไม่ว่าการปรับปรุงอัลกอริทึมของฉันมีนัยสำคัญทางสถิติหรือไม่ แนวคิดเรื่องนัยสำคัญทางสถิติเกี่ยวข้องกันในสถานการณ์นี้หรือไม่? กรุณาชี้ให้ฉันไปในทิศทางของทรัพยากรบางอย่างที่อาจเกี่ยวข้อง

ขอบคุณมาก.

คำตอบ:


3

ในระยะสั้นใช่ นัยสำคัญทางสถิติมีความเกี่ยวข้องที่นี่ คุณกำลังดูข้อผิดพลาดการจัดหมวดหมู่ (หรือตามที่คุณให้ไว้ที่นี่ความแม่นยำ = 1- ข้อผิดพลาดการจำแนกประเภท) หากคุณเปรียบเทียบตัวแยกประเภทในตัวอย่าง 1,000 รายการที่แตกต่างกันคุณสามารถใช้การทดสอบทวินามถ้าเป็น 1,000 ตัวอย่างเดียวกันคุณต้องใช้การทดสอบของ McNemar โปรดทราบว่าการทดสอบข้อผิดพลาดการจัดประเภทด้วยวิธีนี้นั้นไม่ดีนักเนื่องจากคุณถือว่าข้อผิดพลาดการจัดประเภทนั้นไม่ขึ้นอยู่กับคลาสจริงหรือสัดส่วนของคลาสที่แท้จริงนั้นเหมือนกันในแอพพลิเคชันที่มีศักยภาพ

ซึ่งหมายความว่าคุณควรดูที่มาตรการเช่นอัตราบวกจริงอัตราบวกปลอมหรือ AUC สิ่งที่จะใช้ในการวัดและวิธีการทดสอบนั้นขึ้นอยู่กับเอาต์พุตของตัวสร้างคลาสสิกของคุณ มันอาจเป็นคลาสหรืออาจเป็นจำนวนที่ต่อเนื่องซึ่งให้ความน่าจะเป็นของคลาสที่แน่นอน


ขอบคุณมาก ฉันกำลังดูการวิเคราะห์ความเชื่อมั่นของเอกสารข้อความ - จัดประเภทพวกเขาเป็น "บวก" หรือ "เชิงลบ" - มีงานจำนวนมากเผยแพร่ที่ผู้คนเปลี่ยนการเลือกคุณลักษณะในวิธีที่ละเอียดด้วยการปรับปรุงความถูกต้อง 1% - และเขียน กระดาษเกี่ยวกับเรื่องนี้ ฉันสงสัยว่าในหลายกรณีเหล่านี้ผู้เขียนไม่สามารถให้หลักฐานสำหรับการปรับปรุงนัยสำคัญทางสถิติในความถูกต้องของการจำแนกประเภท
Ben

การทดสอบของ McNemar จะบอกคุณว่าแบบจำลองนั้นแตกต่างกันอย่างมีนัยสำคัญหรือไม่ซึ่งไม่ได้บ่งบอกถึงความแตกต่างของความแม่นยำเป็นสำคัญเสมอไป ในการตรวจสอบความสำคัญของความแม่นยำที่เพิ่มขึ้นโดยตรงคุณต้องการประเมินความแม่นยำจำนวนมากเพื่อแมปการกระจายของความถูกต้องและประเมินว่ามันต่างกันหรือไม่ นี่หมายถึงการฝึกนางแบบของคุณหลายครั้ง
drevicko

3

ดังที่Erik กล่าวว่าใช่คุณสามารถตรวจสอบเรื่องนี้อย่างมีนัยสำคัญทางสถิติ อย่างไรก็ตามคิดสักครู่ว่าคุณต้องการตรวจสอบอะไร ฉันคิดว่าคำถามที่น่าสนใจมากกว่านี้อาจถามว่ามีโอกาสมากแค่ไหนที่อัลกอริธึม "ปรับปรุง" ที่ถูกกล่าวหาว่าดีกว่า (หรือมีความหมายดีกว่า) กว่าเดิมโดยให้ข้อมูลของความแตกต่าง 1% ที่สังเกตได้ การถามคำถามในแง่ของ "นัยสำคัญทางสถิติ" มีแนวโน้มที่จะนำไปสู่คำถามประเภทตรงกันข้าม: เนื่องจากอัลกอริธึมทั้งสองเหมือนกันมีโอกาสน้อยกว่า 5% ที่สังเกตเห็นการพัฒนาอย่างน้อยมากนี้ไหม?

สำหรับฉันคำถามหลังนั้นย้อนกลับ แต่ก็กลายเป็นมาตรฐาน คุณสามารถตรวจสอบวิกิพีเดียในการทะเลาะวิวาทในการทดสอบสมมติฐานทางสถิติ ต่อมาคุณอาจจะสนใจในคชกรรมอนุมาน หากคุณต้องการเข้าสู่การวิเคราะห์ข้อมูลแบบเบย์จริงๆคุณสามารถดู "การวิเคราะห์ข้อมูลแบบเบย์" ของ Gelman et al หรือดูคำถามนี้


2

การใช้คำตอบของ Erikกับ Michael's :

คุณสามารถคิดแบบเดียวกันกับที่ Erik อ้างถึงเมื่อเลือกการวัดประสิทธิภาพ

ฉันพบว่ามีประโยชน์ในการอ้างถึงมาตรการที่แตกต่างกันตามคำถามที่พวกเขาตอบ (ที่นี่ในภาษาการวินิจฉัยทางการแพทย์ซึ่งฉันคุ้นเคยมากที่สุด - แต่บางทีคุณสามารถเปลี่ยนผู้ป่วยด้วยข้อความและโรคโดยสแปม ;-)):

  • ความไว: เมื่อผู้ป่วยมีโรคอย่างแท้จริงแล้วตัวจำแนกประเภทมีแนวโน้มที่จะตระหนักได้อย่างไร

  • ความจำเพาะ: เมื่อผู้ป่วยไม่มีโรคอย่างแท้จริงแล้วผู้จำแนกประเภทจะตระหนักได้อย่างไร

  • ค่าทำนายเชิงบวก: เนื่องจากตัวจําแนกอ้างว่าผู้ป่วยจะเป็นโรควิธีการที่ผู้ป่วยจะมีโรคจริงๆ

  • ค่าพยากรณ์ลบ: เนื่องจากตัวจําแนกอ้างว่าผู้ป่วยไม่ต้องเป็นโรคผู้ป่วยจะไม่มีโรคนี้ได้อย่างไร

ดังที่คุณเห็นค่าของภาคแสดงเป็นสิ่งที่แพทย์และผู้ป่วยให้ความสนใจจริง ๆ อย่างไรก็ตามเกือบทุกคนจะจำแนกลักษณะของตัวจําแนกตามความไวและความเฉพาะเจาะจง เหตุผลก็คือค่าการทำนายจำเป็นต้องคำนึงถึงความชุกของโรคและสิ่งนี้อาจแตกต่างกันอย่างมาก (คำสั่งของขนาด!) สำหรับผู้ป่วยประเภทต่าง ๆ

เพิ่มเติมเกี่ยวกับหัวข้อสำหรับคำถามของคุณ:

ฉันพนันได้เลยว่าคุณกังวล

ยกตัวอย่างสถานการณ์ของ Erik ทั้งสอง:

นี่คือตัวอย่างทดสอบอิสระ:

> binom.test (x = 810, n = 1000, p = 0.8)

    Exact binomial test

data:  810 and 1000 
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8 
95 percent confidence interval:
 0.7842863 0.8338735 
sample estimates:
probability of success 
                  0.81 

(โปรดทราบว่าการทดสอบนี้เป็นแบบสองด้านโดยสมมติว่าตัวจําแนกทั้งสองจะได้รับการตีพิมพ์แม้ว่าผลลัพธ์จะเป็นไปในทางตรงกันข้าม ... )

นี่คือสถานการณ์ที่ดีที่สุดที่เป็นไปได้: การทดสอบจับคู่และตัวแยกประเภทใหม่ที่เหมาะสมสำหรับตัวอย่างทั้งหมดที่เก่าถูกต้องรวมทั้งอีก 10:

> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
          newclassif
oldclassif correct wrong
   correct     800     0
   wrong        10   190
> mcnemar.test (oldclassif, newclassif)

    McNemar's Chi-squared test with continuity correction

data:  oldclassif and newclassif 
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427

(p-value ยังคงต่ำกว่าเวทย์มนตร์ 0.05 ตราบใดที่ตัวอย่างจากผู้ทำนายไม่เกิน 10 ตัวอย่างจาก 1,000คนนั้นแตกต่างกัน)

แม้ว่าค่า p จะเป็นคำตอบที่ถูกต้องสำหรับคำถามที่ผิด แต่ก็มีข้อบ่งชี้ว่าเป็นสถานที่ที่แน่น

อย่างไรก็ตามโดยคำนึงถึงการปฏิบัติทางวิทยาศาสตร์ตามปกติคือมีการทดสอบคุณสมบัติใหม่ที่ไม่รู้จัก (ไม่ได้เผยแพร่) และมีการเผยแพร่คุณลักษณะที่ได้ผลดีกว่าเพียงเล็กน้อยเท่านั้น และจากนั้นตัวแยกประเภท 80% อาจเป็นตัวต่อของตัวแยกประเภท 79% บางส่วน ...

หากคุณสนุกกับการอ่านภาษาเยอรมันมีหนังสือที่ดีจริง ๆ โดย Beck-Bornhold และ Dubben ถ้าฉันจำได้อย่างถูกต้องMit an Wahrscheinlichkeit grenzender Sicherheitมีการสนทนาที่ดีมากเกี่ยวกับปัญหาเหล่านี้ (ฉันไม่รู้ว่ามีฉบับภาษาอังกฤษหรือไม่การแปลชื่อเรื่องค่อนข้างตามตัวอักษรคือ "ด้วยความแน่นอนว่ามีพรมแดนติดกับความน่าจะเป็น")


1

ฉันจะไม่สนับสนุนการใช้กฎการให้คะแนนที่ไม่เหมาะสมอย่างไม่ต่อเนื่อง (คะแนนความถูกต้องเช่นความไวความจำเพาะสัดส่วนที่ถูกต้องเมื่อผลลัพธ์ที่ดีที่สุดในรูปแบบปลอม) และใช้การทดสอบอัตราส่วนความน่าจะเป็นหรือการทดสอบ F บางส่วน ตัวแปร

หนึ่งในหลายวิธีในการดูปัญหาเกี่ยวกับสัดส่วนที่จำแนกได้อย่างถูกต้องคือหากสัดส่วนโดยรวมในหมวดหมู่หนึ่งคือ 0.9 คุณจะถูกต้อง 0.9 ครั้งโดยไม่สนใจข้อมูลและจำแนกการสังเกตทุกครั้งที่อยู่ในหมวดนั้น


2
ใช่บางครั้งความแม่นยำเป็นตัวชี้วัดที่ใช้หมัดและบางครั้งก็เป็นวิธีที่ยอดเยี่ยม มันขึ้นอยู่กับ. ดูเหมือนว่าจะมีการสัมผัสกันอย่างสมบูรณ์กับสิ่งที่คำถามนั้นเกี่ยวกับ คำถามคือเกี่ยวกับการพิจารณาว่าอัลกอริทึมใหม่ดีกว่าตามเมตริกที่รู้จักหรือไม่ไม่ใช่การเลือกเมตริกในตอนแรก
Michael McGowan

ฉันคิดว่าเราต้องอธิบายเป้าหมายและฟังก์ชั่นยูทิลิตี้อย่างรอบคอบและหากเราไม่ต้องการให้ฟังก์ชั่นยูทิลิตี้เราจำเป็นต้องถอยกลับสำหรับฟังก์ชั่นยูทิลิตี้ที่ถูกสันนิษฐานได้อย่างมีประสิทธิภาพ
Frank Harrell

มีเหตุผลใดสำหรับการลงคะแนนที่ไม่ระบุชื่อมาก ๆ ?
chl

2
@chl ฉันคิดว่าฉันอธิบายว่าฉันลงคะแนนเพราะไม่ได้ตอบคำถามที่ถูกถามจริงๆ
Michael McGowan

@MichaelMcGowan ยุติธรรมเพียงพอ
chl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.