วิธีที่ถูกต้องในการทดสอบความสำคัญของผลลัพธ์การจำแนกประเภทคืออะไร

21

มีหลายสถานการณ์ที่คุณสามารถฝึกตัวแยกประเภทที่แตกต่างกันหลายตัวหรือใช้วิธีการดึงคุณสมบัติที่แตกต่างกันหลายวิธี ในวรรณกรรมผู้เขียนมักจะให้ข้อผิดพลาดการจัดหมวดหมู่ค่าเฉลี่ยในชุดของการแยกแบบสุ่มของข้อมูล (เช่นหลังจากการตรวจสอบข้ามซ้อนสองเท่า) และบางครั้งก็ให้ความแตกต่างกับข้อผิดพลาดในการแยกเช่นกัน อย่างไรก็ตามสิ่งนี้ด้วยตัวมันเองไม่เพียงพอที่จะบอกได้ว่าตัวจําแนกประเภทหนึ่งดีกว่าตัวจําแนกอื่นอย่างมาก ฉันได้เห็นวิธีการที่แตกต่างมากมายในเรื่องนี้ - การใช้การทดสอบ Chi-squared, t-test, ANOVA พร้อมการทดสอบหลังเลิกเรียน ฯลฯ

ควรใช้วิธีการใดเพื่อกำหนดนัยสำคัญทางสถิติ ภายใต้คำถามนั้นคือ: เราควรตั้งสมมติฐานอะไรเกี่ยวกับการแจกแจงคะแนนการจำแนกประเภท?

classification statistical-significance

— TDC
แหล่งที่มา

2

คุณสามารถโพสต์เอกสารตัวอย่างด้วย: "ฉันเคยเห็นวิธีการที่แตกต่างกันมากมาย - ใช้การทดสอบ Chi-squared, t-test, ANOVA ด้วยการทดสอบหลังการทดสอบ ฯลฯ "? ฉันสนใจสิ่งนั้นจริงๆ

— jb

1

@jb ลองดูที่นี่: cmpe.boun.edu.tr/~ethem/i2ml/slides/v1-1/i2ml-chap14-v1-1.pdf

— Dov

8

นอกจากคำตอบที่ยอดเยี่ยมของ @ jb. ขอให้ฉันเพิ่มว่าคุณสามารถใช้การทดสอบของ McNemarในชุดทดสอบเดียวกันเพื่อพิจารณาว่าตัวแยกประเภทหนึ่งดีกว่าอีกชุดหนึ่งหรือไม่ สิ่งนี้จะใช้ได้กับปัญหาการจัดหมวดหมู่เท่านั้น (งานดั้งเดิมของ McNemar เรียกว่า "ลักษณะ dichotomous") ซึ่งหมายความว่าตัวแยกประเภทจะทำให้มันถูกหรือผิดไม่มีที่ว่างตรงกลาง

— carlosdc
แหล่งที่มา

สิ่งที่เกี่ยวกับในสถานการณ์เมื่อลักษณนามสามารถผ่าน? ในขณะที่มันบอกว่ามันไม่รู้ คุณยังสามารถใช้การทดสอบของ McNemar ได้หรือไม่?

— S0rin

5

เนื่องจากการกระจายตัวของข้อผิดพลาดการจำแนกเป็นการกระจายแบบไบนารี่

นอกจากนี้การเปรียบเทียบประสิทธิภาพของตัวแยกประเภทที่ทำงานบนชุดข้อมูลเดียวกันนั้นสมเหตุสมผล - 'ไม่มีทฤษฎีบทอาหารกลางวันฟรี' ระบุว่าทุกรุ่นมีประสิทธิภาพโดยเฉลี่ยเท่ากันกับชุดข้อมูลทั้งหมด เลือกได้ในการฝึกอบรมพวกเขาhttp://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization

หากคุณกำลังเปรียบเทียบประสิทธิภาพของรุ่น A และ B กับชุดข้อมูล D ฉันคิดว่าประสิทธิภาพเฉลี่ย + ค่าเฉลี่ยนั้นเพียงพอที่จะทำการเลือก

ยิ่งกว่านั้นหากมีหลายรุ่นที่มีประสิทธิภาพเป็นกันเอง (และเป็นแบบเส้นตรงเป็นอิสระจากกัน) ฉันอยากจะสร้างแบบจำลองวงดนตรีมากกว่าแค่เลือกแบบที่ดีที่สุด

— JB
แหล่งที่มา

แต่สำหรับลักษณนามเดี่ยวคุณต้องจบด้วยชุดคะแนน (เช่น MSE มากกว่า 100 ตัวแยก) ซึ่งอาจอยู่ในช่วง [0,1] ฉันคิดว่ามันแพงเกินไปที่จะรับผลของการวิ่งทุกครั้งและวิเคราะห์พวกมัน

— tdc

ใช่. แต่ในกรณีนี้หมายถึง + stddev ก็เพียงพอที่จะทดสอบว่าอันใดอันหนึ่งดีกว่าอันอื่นอย่างมีนัยสำคัญเช่นเดียวกับการวัดอื่น ๆ

— jb

2

ผมไม่แน่ใจ. Mean & stddev ถือว่า Gaussianity สำหรับการเริ่มต้นและประการที่สองสิ่งนี้ไม่ได้คำนึงถึงจำนวนการเปรียบเทียบที่กำลังดำเนินการ (เช่นอาจจำเป็นต้องมีการแก้ไข Bonferroni )

— tdc

1

มันเป็นสิ่งเดียวกันในทฤษฎีการวัดขั้นพื้นฐาน สมมติว่าเรามีไมโครมิเตอร์และเราต้องการตรวจสอบว่าแท่งสองอันมี diamater เท่ากันหรือไม่เราใช้การวัดทั้ง 100 แท่งและตรวจสอบว่ามีค่าเฉลี่ย + stddev ทับซ้อนกันหรือไม่ ในทั้งสองกรณี (measurrement คันและรุ่น Metic) เราก็ถือว่าเสียนกระจายของผลเพียงอาร์กิวเมนต์ที่เหมาะสมคือทฤษฎีบทขีด จำกัด กลาง

— jb

3

ฉันแนะนำกระดาษโดย Tom Dietterich เรื่อง "การทดสอบทางสถิติโดยประมาณสำหรับการเปรียบเทียบอัลกอริทึมการเรียนรู้การจำแนกประเภทภายใต้การดูแล" นี่คือรายละเอียดของกระดาษบน Citeseer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 จากนามธรรม: "บทความนี้วิจารณ์การทดสอบทางสถิติโดยประมาณห้าชุดเพื่อพิจารณาว่าหนึ่งอัลกอริทึมการเรียนรู้ออกมาทำอีกอย่างหนึ่งในงานการเรียนรู้แบบเฉพาะเจาะจงหรือไม่การทดสอบเหล่านี้จะถูกนำมาเปรียบเทียบกันเพื่อทดสอบความเป็นไปได้ ). ... การทดสอบของ McNemar แสดงว่ามีข้อผิดพลาด Type I ต่ำ ... "

— Eric Ringger
แหล่งที่มา

2

IMHO ไม่ควรมีความแตกต่างระหว่างการกระจายคะแนนไปยังการกระจายข้อมูลประเภทอื่น ๆ ดังนั้นโดยทั่วไปสิ่งที่คุณต้องตรวจสอบว่าเป็นข้อมูลของคุณมีการกระจายตามปกติหรือไม่เห็นที่นี่ นอกจากนี้ยังมีหนังสือที่ดีที่จัดการให้สะอาดด้วยคำถามนี้เห็นที่นี่ (เช่นในระยะสั้น: การทดสอบพวกเขาทั้งหมดไม่ว่าจะเป็นผลของสองลักษณนามที่แตกต่างกันอย่างมีนัยสำคัญ .. และถ้าพวกเขาทำพวกเขาสามารถรวมกันเป็นหนึ่ง - รูปแบบวงดนตรี)

— โดฟ
แหล่งที่มา

ผมคิดว่าพวกเขากำลังมีโอกาสมากที่ไม่ได้ที่จะกระจายตามปกติ ในกรณีปกติคะแนนจะเป็นบวกและเอียงไปทางปลายด้านหนึ่งของช่วง (1 หรือ 0 ขึ้นอยู่กับว่าคุณกำลังใช้ความแม่นยำหรือข้อผิดพลาดเป็นตัวชี้วัด)

— tdc

@tdc: การแจกแจงกรณีของฟังก์ชั่นนี้ (จำนวนการจำแนกประเภทอื่น ๆ ) -> (จำนวนรุ่นที่มีการนับจำนวนครั้งที่แตกต่างกันนี้) มักจะเป็น IMO ที่คล้ายกัน

— jb

@Dov: การทดสอบรูปแบบที่ดีกว่าอย่างมีนัยสำคัญ (นั่นคือคำถาม OP) และ testin หากพวกเขาแตกต่างกันเป็นสิ่งที่แตกต่างกันมาก

— jb

@jb ขอบคุณ แต่ฉันบอกว่าแตกต่างกันอย่างมีนัยสำคัญไม่ดีขึ้น ...

— Dov

@Dov ลิงก์แรกของคุณเสีย - ฉันไม่สามารถบอกได้ว่าควรจะชี้ไปที่ใด

— Tamzin Blake

2

ไม่มีการทดสอบเดี่ยวที่เหมาะสมกับทุกสถานการณ์ ฉันสามารถแนะนำหนังสือ "การประเมินการเรียนรู้อัลกอริทึม" โดย Nathalie Japkowicz และ Mohak Shah สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, 2011 ความจริงที่ว่าหนังสือเกือบ 400 หน้าสามารถเขียนได้ในหัวข้อนี้แสดงว่ามันไม่ใช่ปัญหาตรงไปตรงมา ฉันมักจะพบว่าไม่มีการทดสอบที่เหมาะสมกับความต้องการของการศึกษาของฉันดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องเข้าใจข้อดีและข้อเสียของวิธีการที่ใช้ในที่สุด

ปัญหาที่พบบ่อยคือสำหรับชุดข้อมูลขนาดใหญ่อาจมีความแตกต่างอย่างมีนัยสำคัญทางสถิติด้วยขนาดของเอฟเฟกต์ที่ไม่มีนัยสำคัญในทางปฏิบัติ

— Dikran Marsupial
แหล่งที่มา