การทดสอบฟรีดแมนกับการทดสอบวิลคอกซัน


11

ฉันพยายามประเมินประสิทธิภาพของอัลกอริทึมการจัดหมวดหมู่การเรียนรู้ของเครื่องภายใต้การดูแล ข้อสังเกตตกอยู่ในชั้นเรียนเล็กน้อย (2 ในขณะนี้ แต่ฉันต้องการที่จะพูดคุยเรื่องนี้กับปัญหาหลายชั้น) ที่ดึงมาจากประชากร 99 วิชา

หนึ่งในคำถามที่ฉันต้องการจะตอบคือถ้าอัลกอริทึมแสดงความแตกต่างอย่างมีนัยสำคัญในความถูกต้องของการจำแนกประเภทระหว่างคลาสอินพุต สำหรับกรณีการจำแนกเลขฐานสองฉันกำลังเปรียบเทียบความแม่นยำหมายถึงระหว่างชั้นเรียนของอาสาสมัครโดยใช้การทดสอบWilcoxon ที่จับคู่ (เนื่องจากการแจกแจงแบบพื้นฐานไม่ใช่แบบปกติ) เพื่อพูดคุยขั้นตอนนี้กับปัญหาหลายชั้นฉันต้องการใช้แบบทดสอบฟรีดแมน

อย่างไรก็ตามค่า p ที่ได้รับจากทั้งสองโพรซีเดอร์ในกรณีของไบนารี IV จะแตกต่างกันไปอย่างดุเดือดด้วยการทดสอบ Wilcoxon ที่ให้ผลp < .001ในขณะที่p = .25การทดสอบฟรีดแมน สิ่งนี้ทำให้ฉันเชื่อว่าฉันมีความเข้าใจผิดขั้นพื้นฐานเกี่ยวกับโครงสร้างของการทดสอบฟรีดแมน

มันไม่เหมาะสมที่จะใช้การทดสอบฟรีดแมนในกรณีนี้เพื่อเปรียบเทียบผลของการวัดซ้ำของความถูกต้องในทุกวิชาหรือไม่

รหัส R ของฉันเพื่อรับผลลัพธ์เหล่านั้น ( subjectคือตัวระบุหัวเรื่อง, accความแม่นยำ DV และexpectedคลาสการสังเกต IV):

> head(subject.accuracy, n=10)
   subject expected        acc
1       10     none 0.97826087
2       10     high 0.55319149
3      101     none 1.00000000
4      101     high 0.68085106
5      103     none 0.97826087
6      103     high 1.00000000
7      104     none 1.00000000
8      104     high 0.08510638
9      105     none 0.95121951
10     105     high 1.00000000
> ddply(subject.accuracy, .(expected), summarise, mean.acc = mean(acc), se.acc = sd(acc)/sqrt(length(acc)))
  expected  mean.acc     se.acc
1     none 0.9750619 0.00317064
2     high 0.7571259 0.03491149
> wilcox.test(acc ~ expected, subject.accuracy, paired=T)

    Wilcoxon signed rank test with continuity correction

data:  acc by expected
V = 3125.5, p-value = 0.0003101
alternative hypothesis: true location shift is not equal to 0

> friedman.test(acc ~ expected | subject, subject.accuracy)

    Friedman rank sum test

data:  acc and expected and subject
Friedman chi-squared = 1.3011, df = 1, p-value = 0.254

ฉันไม่แน่ใจว่าการเรียกร้องให้คุณwilcox.testทำแบบทดสอบการจัดอันดับที่มีการเซ็นชื่อเปรียบเทียบความถูกต้องภายใต้เงื่อนไขสองประการเนื่องจากคุณไม่เคยบอกตัวแปรการจับคู่ อย่างน้อยที่สุดนี่เป็นวิธีการทดสอบที่ไม่ปลอดภัยเนื่องจากต้องอาศัยการเรียงลำดับของแถวในข้อมูลอินพุต
Aniko

คำตอบ:


11

การทดสอบของFriedmanไม่ได้เป็นส่วนขยายของการทดสอบ Wilcoxon ดังนั้นเมื่อคุณมีตัวอย่างที่เกี่ยวข้องเพียง 2 ตัวอย่างเท่านั้นจะไม่เหมือนกับWilcoxon ที่ลงนามการทดสอบระดับ บัญชีหลังสำหรับขนาดของความแตกต่างในกรณี (แล้วจัดอันดับมันข้ามกรณี) ในขณะที่ฟรีดแมนจัดอันดับภายในกรณีเท่านั้น (และไม่เคยข้ามกรณี): มันมีความไวน้อยกว่า

ฟรีดแมนเกือบจะเป็นส่วนขยายของการทดสอบเครื่องหมาย ด้วย 2 ตัวอย่างค่า p ของพวกเขาอยู่ใกล้มากโดยฟรีดแมนเป็นคนหัวโบราณมากกว่าเล็กน้อย (การทดสอบทั้งสองนี้รักษาความสัมพันธ์ในรูปแบบที่แตกต่างกันบ้าง) ความแตกต่างเล็กน้อยนี้หายไปอย่างรวดเร็วเมื่อขนาดตัวอย่างเพิ่มขึ้น ดังนั้นสำหรับสองตัวอย่างที่เกี่ยวข้องการทดสอบทั้งสองนี้เป็นทางเลือกเพียร์

การทดสอบซึ่งเทียบเท่ากับ Wilcoxon - ในลักษณะเดียวกับ Friedman ที่จะลงนาม - ไม่ได้เป็นที่รู้จักกันดีในการทดสอบQuade ที่กล่าวถึงเช่นที่นี่: http://www.itl.nist.gov/div898/software/dataplot/refman1/ auxillar

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.