จะเปรียบเทียบประสิทธิภาพของตัวจําแนกการเรียนรู้ของเครื่องได้อย่างไร


29

จากความถูกต้องของการจำแนกประเภทโดยประมาณฉันต้องการทดสอบว่าตัวจําแนกตัวใดตัวหนึ่งดีกว่าตัวจําแนกทางสถิติอย่างมีนัยสําคัญหรือไม่ สำหรับตัวจําแนกแต่ละตัวฉันเลือกตัวอย่างการฝึกอบรมและการทดสอบแบบสุ่มจากชุดฐานฝึกโมเดลและทดสอบโมเดล ฉันทำสิ่งนี้สิบครั้งสำหรับลักษณนามแต่ละตัว ดังนั้นฉันจึงมีการประเมินความถูกต้องในการจำแนกประเภทสิบหมวดหมู่สำหรับตัวจําแนกแต่ละตัว ฉันจะทดสอบสถิติว่าเป็นลักษณนามที่ดีกว่าตัวบนชุดข้อมูลฐานได้อย่างไร การทดสอบแบบใดที่เหมาะสมที่จะใช้ลิตรs s ฉันฉันอีอาร์2ล.assผมผมอีR1classifier2


คุณทดสอบตัวจําแนกในตัวอย่างเดียวกันหรือไม่? เช่น sample1, c1 (sample1), c2 (sample1)? หรือว่าคุณใช้ตัวอย่างที่แตกต่างกันสำหรับตัวจําแนกแต่ละตัว
John Moeller

การทดสอบแบบจับคู่คู่จะเหมาะสมในสถานการณ์นี้
GEL

1
@lewellen: ความแม่นยำเป็นสัดส่วน: t-tests มักจะไม่เหมาะสม
cbeleites รองรับ Monica

3
@JohnMoeller: "ความแตกต่างของสัดส่วน" จะเป็นข้อความค้นหาอิสระหรือขึ้นอยู่กับที่เรายังไม่รู้ หากจับคู่ไว้: การทดสอบของ McNemar ฉันเดาว่าการทดสอบ t-test มีขนาดตัวอย่างค่อนข้างเล็กดังนั้นการประมาณแบบปกติอาจไม่ใช่ความคิดที่ดี ฉันจะใช้วิธีการทางสถิติสำหรับอัตราและสัดส่วนเพื่อค้นหารายละเอียด
cbeleites รองรับ Monica

2
@ JohnMoeller: ฉันกำลังบอกว่าความแม่นยำแต่ละอย่างนั้นเป็นสัดส่วน หากคุณต้องการเปรียบเทียบพวกเขาใช้วิธีการสำหรับ "ความแตกต่างของสัดส่วน" ฉันขยายสิ่งนี้เป็นคำตอบเพื่อป้องกันความคิดเห็นที่ไม่มีที่สิ้นสุด
cbeleites รองรับ Monica

คำตอบ:


14

Dietterich กล่าวว่า: "การแจกแจงทวินามสามารถประมาณได้อย่างดีโดยการแจกแจงแบบปกติสำหรับค่าที่สมเหตุสมผลของ " เพื่อให้ห่างไกลคุณไม่ได้บอกเราว่าคุณจะมีความเหมาะสมn @ JohnMoeller มี 30 กรณีที่ IMHO ค่อนข้างน้อยสำหรับการประมาณปกติ (อย่างน้อยก็ไม่มีความรู้เกี่ยวกับp 1และp 2 ) nnp1p2
cbeleites รองรับโมนิก้า

ฉันมีอย่างน้อย 4,000 ระเบียนต่อคลาสที่มีอยู่ในชุดข้อมูลพื้นฐานดังนั้นตัวอย่างที่ฉันเลือกอาจเป็นอะไรที่น้อยกว่านี้ ข้อเสียเปรียบที่ใหญ่ที่สุดที่มีความแตกต่างของการทดสอบสัดส่วนคือพวกเขาไม่สนใจ "การเปลี่ยนแปลงภายในของอัลกอริทึมการเรียนรู้" ฉันคิดว่านี่เป็นสิ่งสำคัญสำหรับลักษณนามเครือข่ายนิวรัล aa ที่ฉันใช้
เอนโทรปี

นั่นเป็นสถานการณ์ที่แตกต่างอย่างสิ้นเชิงจากสิ่งที่ JohnMoeller ตีแผ่ด้วย หากคุณหมายถึงความไม่เสถียรของโมเดลโดย "การเปลี่ยนแปลงภายใน": คุณสามารถวัดได้ ฉันจะอัปเดตคำตอบของฉัน
cbeleites รองรับโมนิกา

เพื่อชี้แจง 30 เป็นจำนวนครั้งที่ฉันเลือกชุดการทดสอบ / รถไฟพาร์ติชันไม่ใช่จำนวนคะแนนการทดสอบที่ฉันเลือก
John Moeller

@ JohnMoeller: ขอโทษฉันเข้าใจผิดอย่างสมบูรณ์ว่า (มาจากเขตที่ "ตัวอย่าง" เป็นตัวอย่างทางกายภาพของการเรียงลำดับบางอย่าง)
cbeleites รองรับ Monica

10

ฉันไม่มีหนังสือ Fleiss อยู่ในมือดังนั้นทั้งหมดนี้คือ IIRC

ตอบคำถามของ @ JohnMoeller ในความคิดเห็นในขณะนี้: คำถามเดิมคือ IMHO ไม่สามารถตอบได้เหมือนเดิม

สมมติว่าฉันมีตัวอย่าง 30 ชิ้นและฉันทดสอบ c1 และ c2 ในแต่ละตัวอย่างและบันทึกความแม่นยำสำหรับแต่ละตัวอย่าง

การทำเช่นนี้คุณจะสิ้นสุดด้วยตารางฉุกเฉิน 2 x 2 ที่ให้ลักษณนาม 1 ถูกต้อง / ไม่ถูกต้องกับลักษณนาม 2 ถูกต้อง / ไม่ถูกต้อง ซึ่งเป็นจุดเริ่มต้นสำหรับการทดสอบ McNemar ของ ดังนั้นนี่คือการเปรียบเทียบแบบจับคู่ซึ่งมีประสิทธิภาพมากกว่าการเปรียบเทียบสัดส่วน "อิสระ" (ซึ่งไม่ได้เป็นอิสระอย่างสมบูรณ์หากพวกเขามาจากการสุ่มจากกลุ่มตัวอย่าง จำกัด )

ฉันไม่สามารถค้นหา "พิมพ์เล็ก" ของ McNemar ได้ในขณะนี้ แต่ตัวอย่าง 30 รายการไม่มาก ดังนั้นคุณอาจต้องเปลี่ยนจาก McNemar's ไปเป็นการทดสอบที่แน่นอนของ Fisher [หรืออย่างอื่น] ซึ่งคำนวณความน่าจะเป็นแบบทวินาม


หมายความว่าสัดส่วน:
มันไม่สำคัญว่าคุณจะทดสอบตัวแยกประเภทหนึ่งตัวและ 10x เดียวกันกับกรณีทดสอบ 10 ข้อหรือครั้งเดียวกับกรณีทั้งหมด 100 กรณี (ตาราง 2 x 2 เพียงนับกรณีทดสอบทั้งหมด)

หากการประมาณค่าความถูกต้อง 10 ครั้งสำหรับตัวจําแนกแต่ละตัวในคำถามต้นฉบับนั้นได้มาจากการสุ่มการตรวจสอบความถูกต้องแบบครอสหรือ 10-fold หรือ 10 เท่าของการบูตแบบสเต็ป มีความแม่นยำเหมือนกัน) ดังนั้นผลการทดสอบสามารถรวบรวมได้ * สำหรับการตรวจสอบความถูกต้องไขว้ 10 เท่าคุณจะสมมติว่าขนาดตัวอย่างทดสอบเท่ากับจำนวนตัวอย่างทดสอบทั้งหมด สำหรับวิธีอื่น ๆ ฉันไม่แน่ใจ: คุณอาจทดสอบกรณีเดียวกันมากกว่าหนึ่งครั้ง ขึ้นอยู่กับข้อมูล / ปัญหา / แอปพลิเคชันซึ่งไม่ได้เป็นข้อมูลมากเท่ากับการทดสอบเคสใหม่

k

knp^=knσ2(p^)=σ2(kn)=p(1p)n


อาโอเค. เป็นบิตสุดท้ายที่ล้างสิ่งต่าง ๆ อย่างน้อยสำหรับฉัน ขอบคุณ
John Moeller

ขอบคุณสำหรับคำตอบ เพียงไม่ชัดเจนในขั้นตอนการปฏิบัติตาม คุณบอกว่า preform การตรวจสอบไขว้ 10 เท่าในชุดข้อมูลเดียว วัดความแม่นยำของตัวอย่างที่ค้างซึ่งคำนวณเมทริกซ์ความสับสน 2x2 เพิ่มสิบเมทริกซ์ความสับสน 2x2 preform การทดสอบของ McNemar เกี่ยวกับเมทริกซ์การรวม 2x2 ที่สับสน
เอนโทรปี

@entropy: 1. ตาราง 2x2 ไม่ใช่เมทริกซ์ที่สับสน 2. ตัวอย่างใหม่ทุกครั้งเทียบกับการทดสอบตัวแยกประเภททั้งสองบนข้อมูลการทดสอบเดียวกัน: การทดสอบแบบจับคู่มีประสิทธิภาพมากขึ้น (และเป็นไปได้ที่นี่) ดูคำตอบที่อัพเดต
cbeleites รองรับ Monica

ขออภัยด้วยใช่ตารางฉุกเฉิน ฉันถูกต้องหรือไม่ที่จะบอกว่าการทดสอบของ McNemar แปลโดยตรงไปยังปัญหาหลายชั้นด้วย
เอนโทรปี

@cbeleites ขอบคุณมากสำหรับการตอบสนอง !!! ฉันคิดว่าคุณได้ตอบคำถามของฉันอย่างแน่นอน อย่างไรก็ตามฉันยังไม่เข้าใจขั้นตอนที่แน่นอนที่ต้องปฏิบัติตาม คุณจะช่วยอธิบายรายละเอียดในย่อหน้าสุดท้าย
เอนโทรปี
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.