ฉันพยายามประเมินประสิทธิภาพของอัลกอริทึมการจัดหมวดหมู่การเรียนรู้ของเครื่องภายใต้การดูแล ข้อสังเกตตกอยู่ในชั้นเรียนเล็กน้อย (2 ในขณะนี้ แต่ฉันต้องการที่จะพูดคุยเรื่องนี้กับปัญหาหลายชั้น) ที่ดึงมาจากประชากร 99 วิชา
หนึ่งในคำถามที่ฉันต้องการจะตอบคือถ้าอัลกอริทึมแสดงความแตกต่างอย่างมีนัยสำคัญในความถูกต้องของการจำแนกประเภทระหว่างคลาสอินพุต สำหรับกรณีการจำแนกเลขฐานสองฉันกำลังเปรียบเทียบความแม่นยำหมายถึงระหว่างชั้นเรียนของอาสาสมัครโดยใช้การทดสอบWilcoxon ที่จับคู่ (เนื่องจากการแจกแจงแบบพื้นฐานไม่ใช่แบบปกติ) เพื่อพูดคุยขั้นตอนนี้กับปัญหาหลายชั้นฉันต้องการใช้แบบทดสอบฟรีดแมน
อย่างไรก็ตามค่า p ที่ได้รับจากทั้งสองโพรซีเดอร์ในกรณีของไบนารี IV จะแตกต่างกันไปอย่างดุเดือดด้วยการทดสอบ Wilcoxon ที่ให้ผลp < .001
ในขณะที่p = .25
การทดสอบฟรีดแมน สิ่งนี้ทำให้ฉันเชื่อว่าฉันมีความเข้าใจผิดขั้นพื้นฐานเกี่ยวกับโครงสร้างของการทดสอบฟรีดแมน
มันไม่เหมาะสมที่จะใช้การทดสอบฟรีดแมนในกรณีนี้เพื่อเปรียบเทียบผลของการวัดซ้ำของความถูกต้องในทุกวิชาหรือไม่
รหัส R ของฉันเพื่อรับผลลัพธ์เหล่านั้น ( subject
คือตัวระบุหัวเรื่อง, acc
ความแม่นยำ DV และexpected
คลาสการสังเกต IV):
> head(subject.accuracy, n=10)
subject expected acc
1 10 none 0.97826087
2 10 high 0.55319149
3 101 none 1.00000000
4 101 high 0.68085106
5 103 none 0.97826087
6 103 high 1.00000000
7 104 none 1.00000000
8 104 high 0.08510638
9 105 none 0.95121951
10 105 high 1.00000000
> ddply(subject.accuracy, .(expected), summarise, mean.acc = mean(acc), se.acc = sd(acc)/sqrt(length(acc)))
expected mean.acc se.acc
1 none 0.9750619 0.00317064
2 high 0.7571259 0.03491149
> wilcox.test(acc ~ expected, subject.accuracy, paired=T)
Wilcoxon signed rank test with continuity correction
data: acc by expected
V = 3125.5, p-value = 0.0003101
alternative hypothesis: true location shift is not equal to 0
> friedman.test(acc ~ expected | subject, subject.accuracy)
Friedman rank sum test
data: acc and expected and subject
Friedman chi-squared = 1.3011, df = 1, p-value = 0.254
wilcox.test
ทำแบบทดสอบการจัดอันดับที่มีการเซ็นชื่อเปรียบเทียบความถูกต้องภายใต้เงื่อนไขสองประการเนื่องจากคุณไม่เคยบอกตัวแปรการจับคู่ อย่างน้อยที่สุดนี่เป็นวิธีการทดสอบที่ไม่ปลอดภัยเนื่องจากต้องอาศัยการเรียงลำดับของแถวในข้อมูลอินพุต