เมื่อใดจึงจะใช้การทดสอบยศรวมของวิลคอกซันแทนการทดสอบทีไม่มีคู่


26

นี่เป็นคำถามติดตามผลถึงสิ่งที่ Frank Harrell เขียนไว้ที่นี่ :

จากประสบการณ์ของฉันขนาดตัวอย่างที่ต้องการสำหรับการแจกแจงแบบ t นั้นแม่นยำมักจะใหญ่กว่าขนาดตัวอย่างในมือ การทดสอบ Wilcoxon ที่ได้รับการจัดอันดับนั้นมีประสิทธิภาพอย่างที่คุณพูดและมีความแข็งแกร่งดังนั้นฉันจึงมักจะชอบมากกว่าการทดสอบ t

ถ้าฉันเข้าใจถูกต้อง - เมื่อเปรียบเทียบตำแหน่งของตัวอย่างที่ไม่ตรงกันสองตัวอย่างเราต้องการใช้การทดสอบยศวิลคอกซันเหนือการทดสอบทีไม่มีคู่ถ้าขนาดตัวอย่างของเรามีขนาดเล็ก

มีสถานการณ์ทางทฤษฎีที่เราต้องการทดสอบ Wilcoxon rank-sum มากกว่าการทดสอบ t-unpaired แม้ว่าขนาดตัวอย่างของทั้งสองกลุ่มของเรานั้นค่อนข้างใหญ่หรือไม่?

แรงจูงใจของฉันสำหรับคำถามนี้เกิดจากการสังเกตว่าสำหรับการทดสอบตัวอย่าง t-test เพียงอย่างเดียวการใช้มันสำหรับการแจกแจงแบบเบ้เล็กน้อยที่ไม่ดังขนาดนั้นจะทำให้เกิดข้อผิดพลาดประเภท I ที่ผิด:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error

1
สำหรับฉันแล้ว 0.0572 ดูเหมือนจะใกล้เคียงกับ 0.05
mark999

สวัสดีมาร์ค - เมื่อดำเนินการภายใต้การซ้ำซ้อน 100000 ของสมมติฐานว่างเราไม่คาดหวังว่าจะได้รับระดับความแตกต่างนี้จาก 0.05 โดยทั่วไปเราคาดหวังความแตกต่างของบวกลบบางอย่างเช่นสองครั้งของ sqrt (0.05 * 0.95 / 100000) จาก 0.05
Tal Galili

1
ฉันยอมรับว่ามันไม่ถูกต้อง ฉันแค่หมายความว่ามันใกล้พอสำหรับการใช้งานจริง
mark999

1
คำถามที่เกี่ยวข้อง: วิธีการเลือกระหว่างการทดสอบ t-test หรือ non-parametric เช่น Wilcoxon ในกลุ่มตัวอย่างขนาดเล็กซึ่งพิจารณาจากการทดสอบทั้งแบบจับคู่และไม่จับคู่รวมถึงทางเลือกอื่นสำหรับ Wilcoxon เช่น Brunner-Munzel นอกจากนี้ยังมีคำตอบที่ยอดเยี่ยมโดย Frank Harrell ซึ่งอธิบายว่าทำไมเขาถึงรู้สึกเป็นธรรมในวิธีการของเขาในรายละเอียดมากกว่าสารสกัดข้างต้น (เช่นความสำคัญของค่าคงที่ของการจัดอันดับภายใต้การเปลี่ยนแปลงแบบโมโนโทนิค)
Silverfish

@TalGalili: ทำไมคุณไม่คาดหวังว่าจะได้รับความแตกต่างในระดับนี้เพราะคุณกำลังทดสอบ t-test และข้อสันนิษฐานเรื่องการละเมิดกฎเกณฑ์ (ฉันเห็นว่าตัวอย่างของคุณมีการแจกแจงแบบทวีคูณ)? ฉันถามจากมุมมองสามเณรที่นี่ ฉันแค่พยายามที่จะเข้าใจสิ่งที่เราคาดหวังทำแบบทดสอบหนึ่งตัวอย่างเมื่อข้อสันนิษฐานผิดปกติ เหตุใดข้อผิดพลาดประเภทเฉลี่ยฉันควรเล็กกว่า 5% หรือใหญ่กว่า 5% หรืออะไรก็ตาม วิธีที่ฉันเห็นมันสิ่งที่เรากำลังทดสอบคือและการแจกแจงเป็นเรื่องปกติ H0:μ=50
Erosennin

คำตอบ:


23

ใช่แล้ว ตัวอย่างเช่นการสุ่มตัวอย่างใด ๆ จากการแจกแจงที่มีความแปรปรวนแบบไม่สิ้นสุดจะทำให้การทดสอบ t เสียหาย แต่ไม่ใช่ Wilcoxon อ้างถึงวิธีการทางสถิติ Nonparametric (Hollander and Wolfe) ฉันเห็นว่าประสิทธิภาพเชิงสัมพัทธ์ (ARE) ของ Wilcoxon เทียบกับ t test คือ 1.0 สำหรับการแจกแจงเครื่องแบบ 1.097 (เช่น Wilcoxon ดีกว่า) สำหรับ Logistic, 1.5 สำหรับ เลขชี้กำลังสองเท่า (Laplace) และ 3.0 สำหรับเลขชี้กำลัง

Hodges and Lehmann แสดงให้เห็นว่าค่าต่ำสุดของ ARE ของ Wilcoxon เมื่อเทียบกับการทดสอบอื่น ๆ คือ 0.864 ดังนั้นคุณจะไม่มีวันสูญเสียประสิทธิภาพมากไปกว่า 14% เมื่อใช้กับมัน (แน่นอนว่านี่เป็นผลเชิงซีมโทติค) ดังนั้นการใช้ Wilcoxon ของ Frank Harrell เป็นค่าเริ่มต้นน่าจะถูกนำมาใช้โดยเกือบทุกคนรวมถึงตัวฉันเอง

แก้ไข: ตอบสนองต่อคำถามติดตามในความคิดเห็นสำหรับผู้ที่ต้องการช่วงความมั่นใจHodges-Lehmann ประมาณเป็นตัวประมาณว่า "สอดคล้อง" กับการทดสอบ Wilcoxon และช่วงความมั่นใจสามารถสร้างขึ้นรอบ ๆ นั้น


1
มีวิธีง่ายๆในการรับช่วงความมั่นใจหรือไม่หากใช้การทดสอบ Wilcoxon ดูเหมือนว่าจะกระตุ้นให้ผู้คนให้ความสำคัญกับ p-value มากเกินกว่าที่พวกเขาจะใช้วิธีการแบบพารามิเตอร์
mark999

ใช่ตัวประมาณ Hodges-Lehmann เป็นตัวประมาณที่เกี่ยวข้องและฉันได้แก้ไขเนื้อหาของการตอบสนองเพื่อให้ผู้อ่านในอนาคตไม่ต้องผ่านความเห็น
jbowman

ขอบคุณ jbowman ฉันไม่คุ้นเคยกับตัวประมาณค่า Hodges-Lehmann แต่จะเห็นสิ่งที่ฉันสามารถทราบได้
mark999

3
biostat.mc.vanderbilt.edu/WilcoxonSoftwareแสดงวิธีการใช้ R เพื่อรับการประเมิน Hodges-Lehmann และช่วงความมั่นใจ
Frank Harrell

1
(+1) จากนักอนุรักษนิยมผู้มีตำแหน่งสูง อย่างไรก็ตามสิ่งที่ท้าทายสำหรับการทดสอบยศคือสมมติฐานนั้นคลุมเครือ โดยทั่วไปแล้วมันไม่ใช่สมมติฐานเดียวกับ t-test t-test ทดสอบความแตกต่างของค่าเฉลี่ยเสมอ Wilcoxon ทดสอบความแตกต่างของค่าเฉลี่ยถ่วงน้ำหนัก แน่นอนถ้าความแตกต่างค่าเฉลี่ยอันดับมีความสำคัญทางสถิติเรารู้ว่าการแจกแจงต้องแตกต่างกันแม้ว่าค่าเฉลี่ยจะเท่ากัน ไม่มีการทดสอบเพื่อตรวจจับความแตกต่างในทุกกรณี ฉันพูดมากเพราะฉันชอบความสามารถในการตีความ (1/2)
AdamO

24

ผมขอนำท่านกลับไปสนทนาของเราในความคิดเห็นที่นี้คำถามของคุณ การทดสอบผลรวมของ Wilcoxon นั้นเทียบเท่ากับการทดสอบ Mann-Whitney U (และการขยายตัวอย่างโดยตรงสำหรับตัวอย่างที่มากกว่าสองครั้งเรียกว่าการทดสอบ Kruskal-Wallis) คุณสามารถเห็นได้ในวิกิพีเดียเช่นเดียวกับในข้อความนี้ที่ Mann-Whitney (หรือ Kruskal-Wallis) โดยทั่วไปไม่ได้เปรียบเทียบค่าเฉลี่ยหรือค่ามัธยฐาน มันเปรียบเทียบความชุกโดยรวมของค่า: ตัวอย่างใดที่ "ยิ่งใหญ่กว่าสุ่ม" การทดสอบไม่มีการกระจาย T-test เปรียบเทียบวิธีการ มันถือว่าการกระจายปกติ ดังนั้นการทดสอบมีส่วนร่วมในสมมติฐานที่แตกต่างกัน. ในกรณีส่วนใหญ่เราไม่ได้วางแผนที่จะเปรียบเทียบวิธีการเฉพาะเจาะจง แต่เราต้องการทราบว่าตัวอย่างใดมีค่ามากกว่าและทำให้ Mann-Whitney เป็นการทดสอบเริ่มต้นสำหรับเรา ในทางตรงกันข้ามเมื่อการแจกแจงทั้งสองเป็นสมมาตรงานของการทดสอบว่าหนึ่งตัวอย่างคือ "ยิ่งใหญ่" กว่าอีกคนหนึ่งเสื่อมลงในงานของการเปรียบเทียบทั้งสองวิธีแล้วถ้าการแจกแจงเป็นปกติที่มีค่าความแปรปรวนเท่ากัน มีประสิทธิภาพมากขึ้น


+1 สำหรับการคาดเดาคำตอบของคุณกลับไปสู่ความหมายของสมมติฐานที่กำลังทดสอบ
Josh Hemann

โดย "ตัวอย่างใดที่" สุ่มมากกว่า "" คุณหมายถึง "ซึ่งตัวอย่างหนึ่งมักใช้ค่ามากกว่าเมื่อเปรียบเทียบกับตัวอย่างอื่น" ถ้าไม่คุณหมายถึงอะไร โปรดอธิบายเพิ่มเติมเกี่ยวกับเรื่องนี้อีกหน่อยได้ไหม?
Erdogan CEVHER

1
@Erdogan ใช่เราอาจพูดเหมือนที่คุณพูด ถ้อยคำที่เข้มงวดคือสิ่งนี้: ในคู่ของวัตถุที่สุ่มเลือกอย่างใดอย่างหนึ่งจากแต่ละตัวอย่างวัตถุจากตัวอย่าง "ยิ่งเด่นกว่าสุ่ม" จะสูงกว่า (ตามค่า) กว่าวัตถุจากตัวอย่างอื่นที่มีความน่าจะเป็น> 0.5
ttnphns
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.