การเปรียบเทียบผลลัพธ์ความแม่นยำของลักษณนามสองตัวสำหรับนัยสำคัญทางสถิติกับการทดสอบ t


17

ฉันต้องการเปรียบเทียบความแม่นยำของตัวแยกประเภทสองตัวสำหรับนัยสำคัญทางสถิติ ตัวแยกประเภททั้งสองทำงานในชุดข้อมูลเดียวกัน นำไปสู่การนี้ผมที่จะเชื่อว่าฉันควรจะใช้ตัวอย่างหนึ่ง t-test จากสิ่งที่ฉันได้รับการอ่าน

ตัวอย่างเช่น:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

นี่เป็นการทดสอบที่ถูกต้องที่จะใช้หรือไม่? ถ้าเป็นเช่นนั้นฉันจะคำนวณได้อย่างไรว่าความแตกต่างของความแม่นยำระหว่างลักษณนามมีความสำคัญ

หรือฉันควรใช้การทดสอบอื่น?

คำตอบ:


14

ฉันอาจจะเลือกใช้การทดสอบของ McNemarถ้าคุณฝึกตัวจําแนกครั้งเดียว เดวิดบาร์เบอร์ยังแนะนำการทดสอบแบบเบย์ที่ค่อนข้างเรียบร้อยซึ่งดูเหมือนว่าจะค่อนข้างหรูหราสำหรับฉัน แต่ไม่ได้ใช้อย่างกว้างขวาง (มันถูกกล่าวถึงในหนังสือของเขาด้วย)

เพื่อเพิ่มดังที่ Peter Flom กล่าวคำตอบนั้นเกือบจะแน่นอน "ใช่" เพียงแค่ดูความแตกต่างของประสิทธิภาพและขนาดของตัวอย่าง (ฉันใช้ตัวเลขที่ยกมาเป็นชุดทดสอบแทนที่จะเป็นชุดฝึกซ้อม)

บังเอิญ Japkowicz และ Shah มีหนังสือเล่มล่าสุดเกี่ยวกับ"การประเมินการเรียนรู้อัลกอริทึม: มุมมองการจำแนก"ฉันไม่ได้อ่าน แต่ดูเหมือนว่าจะเป็นประโยชน์ในการอ้างอิงสำหรับปัญหาเหล่านี้


1
ฉันใช้การตรวจสอบข้ามแบบ 10 เท่าเพื่อรับผลลัพธ์เหล่านี้ หมายความว่าพวกเขาเป็นชุดข้อมูลที่แตกต่างกันจริง ๆ นั่นคือขนาดโดยรวมซึ่งแบ่งออกเป็นแบบทดสอบ / รถไฟในการตรวจสอบความถูกต้องไขว้
Chris

4
ความถูกต้องของแต่ละครั้งจะไม่เป็นอิสระซึ่งจะละเมิดสมมติฐานของการทดสอบทางสถิติส่วนใหญ่ แต่อาจจะไม่เป็นปัญหาใหญ่ ฉันมักจะใช้การสุ่มการฝึกอบรม / การทดสอบแยก 100 ครั้งและใช้การทดสอบการจัดอันดับแบบคู่ที่ลงนาม Wilcoxon (ใช้การแยกแบบสุ่มแบบเดียวกันสำหรับตัวแยกประเภททั้งสอง) ฉันชอบการทดสอบแบบนี้บ่อยครั้งที่ฉันใช้ชุดข้อมูลขนาดเล็ก (เพราะฉันสนใจที่จะให้ข้อมูลมากเกินไป) ดังนั้นความแตกต่างระหว่างการแยกแบบสุ่มมีแนวโน้มที่จะเปรียบเทียบได้กับประสิทธิภาพที่แตกต่างระหว่างตัวแยกประเภท
Dikran Marsupial

2
(+1) สำหรับการทดสอบระดับ
วิลคอกซัน

3
ฉันยังใช้การทดสอบระดับที่มีการเซ็นชื่อและการทดสอบแบบจับคู่เพื่อเปรียบเทียบตัวแยกประเภท อย่างไรก็ตามทุกครั้งที่ฉันรายงานโดยใช้การทดสอบด้านเดียวเพื่อจุดประสงค์นี้ฉันจะได้รับความยากลำบากจากผู้ตรวจสอบดังนั้นจึงเปลี่ยนกลับไปใช้การทดสอบแบบสองด้าน!
BGreene

2
เมื่อ OP ชี้แจงในความคิดเห็นว่าคำถามนั้นเกี่ยวกับการตรวจสอบข้ามคุณอาจพิจารณาขยายคำตอบของคุณเพื่อให้ครอบคลุมหัวข้อนั้นหรือไม่ เราสามารถแก้ไข Q ได้แล้ว นี่เป็นหัวข้อที่สำคัญและมีคำถามสองสามข้อที่เกี่ยวข้องกันมาก (หรือซ้ำกัน) แต่ไม่มีคำตอบที่ดี ในความคิดเห็นข้างต้นคุณแนะนำให้ใช้การทดสอบแบบจับคู่กับค่าประมาณ CV และบอกว่าคุณไม่คิดว่าการไม่เป็นอิสระนั้นเป็นปัญหาใหญ่ที่นี่ ทำไมจะไม่ล่ะ? มันฟังดูราวกับว่าเป็นปัญหาใหญ่ที่อาจเกิดขึ้น!
อะมีบาพูดว่า Reinstate Monica

4

ฉันสามารถบอกคุณได้โดยไม่ต้องวิ่งอะไรเลยว่าความแตกต่างจะมีนัยสำคัญทางสถิติอย่างมาก มันผ่านการทดสอบ IOTT (การทดสอบการบาดเจ็บระหว่างตา - มันกระทบคุณระหว่างดวงตา)

ถ้าคุณต้องการทำการทดสอบคุณสามารถทำแบบทดสอบสองสัดส่วนได้ซึ่งสามารถทำได้ด้วยการทดสอบตัวอย่างสองตัวอย่าง

คุณอาจต้องการแบ่ง "ความถูกต้อง" ออกเป็นส่วน ๆ ความไวและความจำเพาะหรือเท็จบวกและเท็จลบ ในหลายแอปพลิเคชันค่าใช้จ่ายของข้อผิดพลาดที่แตกต่างกันค่อนข้างแตกต่างกัน


zn

tz

2
เปอร์เซ็นต์ความแม่นยำที่ฉันใส่ในคำถามเป็นเพียงตัวอย่างเท่านั้น
Chris

0

เนื่องจากความถูกต้องในกรณีนี้คือสัดส่วนของตัวอย่างที่จำแนกอย่างถูกต้องเราสามารถใช้การทดสอบสมมติฐานเกี่ยวกับระบบของสองสัดส่วน

p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

สถิติการทดสอบจะได้รับจาก

Z=p^1p^22p^(1p^)/n ที่ไหน p^=(x1+x2)/2n

p2p1

  • H0:p1=p2 (สมมติฐานว่างที่ระบุว่าทั้งสองมีค่าเท่ากัน)
  • Ha:p1<p2 (การใช้ไฮโปไทซิสอื่นที่อ้างว่าใหม่กว่าดีกว่าที่มีอยู่เดิม)

ภูมิภาคปฏิเสธจะได้รับจาก

Z<zαH0Ha

zααz0.5=1.645Z<1.6451α

อ้างอิง:

  1. R. Johnson และ J. Freund, Miller และ Freund's ความน่าจะเป็นและสถิติสำหรับวิศวกร, 8th Ed. Prentice Hall International, 2011. (แหล่งข้อมูลปฐมภูมิ)
  2. การทดสอบสมมติฐาน-กระชับสรุปสูตร (นำมาจาก [1])

ไม่ควร p^p^1p^2p^=(x1+x2)/2n n
พระอิศวร Tp

แม้ว่าฉันจะเห็นด้วยว่าสามารถใช้การทดสอบตามสัดส่วนได้ แต่ก็ไม่มีอะไรในคำถามดั้งเดิมที่แนะนำการทดสอบด้านเดียวที่เหมาะสม ยิ่งกว่านั้น"เราสามารถพูดด้วยความมั่นใจ 95%"เป็นการตีความที่ผิด ๆ ดูเช่นที่นี่: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans Rodenburg

@ShivaTp แน่นอน ขอบคุณสำหรับการชี้การแก้ไขการพิมพ์ผิดที่จำเป็นมาก ยืนยันการแก้ไขแล้ว
Ébe Isaac
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.