รายงานการเสียชีวิตของการทดสอบเสื้อได้พูดเกินจริงอย่างมากหรือไม่?


25

การอ่าน CV คลาสสิกตลอดเวลาฉันเจอข้อความที่ฉันต้องการชี้แจง นี่คือโพสต์และคำถามของฉันอ้างถึงคำพูดปิด: "ฉันต้องทราบว่าความรู้ทั้งหมดที่ฉันเพิ่งจะค่อนข้างล้าสมัยตอนนี้ที่เรามีคอมพิวเตอร์เราสามารถทำได้ดีกว่าการทดสอบ t - เป็น Frank บันทึกคุณ อาจต้องการใช้การทดสอบ Wilcoxon ในทุก ๆ ที่ที่คุณได้รับการสอนให้ทำการทดสอบด้วย t "

การขาดความกังวลเกี่ยวกับว่ามันเป็นเสียงที่จะสมมติว่าการกระจายตัวของค่าเฉลี่ยตัวอย่างเป็นเรื่องปกติพอที่จะเรียกใช้การทดสอบ t-เห็นได้ชัดว่าเป็นข้อได้เปรียบอย่างมาก และฉันเห็นว่าคอมพิวเตอร์สามารถจัดอันดับรายการที่มีความแตกต่างยาวระหว่างสองเวกเตอร์ของข้อมูลในสายลม ... ฉันจำได้ว่าทำด้วยตนเองเมื่อหลายปีก่อน แต่ฉันเชือนแช ...

ดังนั้นการทดสอบเสื้อยืดเป็นเรื่องของอดีตอย่างแท้จริงหรือไม่? การทดสอบการเรียงสับเปลี่ยน? พวกเขาเกินไปเฉพาะกิจในความรู้สึกของมักจะผูกพันเขียนไม่กี่บรรทัดของรหัส?


3
การทดสอบการเปลี่ยนสับเปลี่ยนเฉพาะกิจอะไร ฟิชเชอร์มองว่าการทดสอบ t ตามความเหมาะสมในระดับที่พฤติกรรมของพวกเขาใกล้เคียงกับการทดสอบการเปลี่ยนรูป (ขออภัยฉันไม่มีใบเสนอราคาที่แน่นอนหากฉันพบว่าฉันจะให้มัน) แสดงว่าเขาเห็น การทดสอบการเปลี่ยนรูปเป็นพื้นฐานเพิ่มเติม ฉันยังไม่เห็นว่าอะไรยากเกี่ยวกับการทดสอบการเปลี่ยนรูปแบบสองด้าน แต่บางทีฉันอาจหลงทางไปหาคำตอบแปลก ๆ
Glen_b -Reinstate Monica

1
บางทีสิ่งที่สนับสนุนการทดสอบความแปรปรวนแบบเท่ากันนั้นอาจเกี่ยวข้องกับการประมาณค่าพารามิเตอร์ในแบบจำลองที่ค่อนข้างง่ายซึ่งคุณอาจต้องการให้ความบันเทิง
Scortchi - Reinstate Monica

คำตอบ:


22

ฉันจะไม่บอกว่าตัวอย่างคลาสสิกหนึ่งตัวอย่าง (รวมถึงการจับคู่) และการทดสอบความแปรปรวนแบบสองตัวอย่างที่เท่ากันนั้นล้าสมัยอย่างแน่นอน แต่มีทางเลือกมากมายที่มีคุณสมบัติที่ยอดเยี่ยมและในหลาย ๆ กรณีพวกเขาควรใช้

ฉันจะไม่พูดความสามารถในการทำการทดสอบ Wilcoxon-Mann-Whitney อย่างรวดเร็วในกลุ่มตัวอย่างขนาดใหญ่ - หรือแม้กระทั่งการทดสอบการเปลี่ยนรูป - ไม่นานมานี้ฉันได้ทำทั้งสองอย่างเป็นประจำมากกว่า 30 ปีที่ผ่านมาในฐานะนักเรียน มีมานานแล้ว ณ จุดนั้น

ดังนั้นที่นี่มีทางเลือกและทำไมพวกเขาสามารถช่วย:

  1. Welch-Satterthwaite - เมื่อคุณไม่มั่นใจว่าความแปรปรวนจะใกล้เคียงกัน (หากขนาดตัวอย่างเท่ากันสมมติฐานความแปรปรวนเท่ากันจะไม่สำคัญ)

  2. Wilcoxon-Mann-Whitney - ยอดเยี่ยมถ้าหางเป็นปกติหรือหนักกว่าปกติโดยเฉพาะอย่างยิ่งในกรณีที่ใกล้เคียงกับสมมาตร หากก้อยมีแนวโน้มที่จะใกล้เคียงกับปกติการทดสอบการเปลี่ยนแปลงของค่าเฉลี่ยจะให้พลังงานมากกว่าเล็กน้อย

  3. การทดสอบ t ที่มีประสิทธิภาพ - มีความหลากหลายของสิ่งเหล่านี้ที่มีพลังที่ดีตามปกติ แต่ก็ทำงานได้ดี (และรักษาอำนาจที่ดี) ภายใต้ทางเลือกที่หนักกว่า

  4. GLMs - มีประโยชน์สำหรับการนับหรือกรณีการเอียงขวาอย่างต่อเนื่อง (เช่น gamma) เป็นต้น ออกแบบมาเพื่อจัดการกับสถานการณ์ที่ความแปรปรวนเกี่ยวข้องกับค่าเฉลี่ย

  5. เอฟเฟกต์แบบสุ่มหรือโมเดลอนุกรมเวลาอาจมีประโยชน์ในกรณีที่มีรูปแบบการพึ่งพาเฉพาะ

  6. วิธีการแบบเบย์ , การบูตสแตรปและเทคนิคที่สำคัญอื่น ๆ อีกมากมาย ยกตัวอย่างเช่นด้วยวิธีการแบบเบย์มันค่อนข้างเป็นไปได้ที่จะมีรูปแบบที่สามารถอธิบายขั้นตอนการปนเปื้อน, การจัดการกับการนับหรือข้อมูลเบ้และจัดการรูปแบบเฉพาะของการพึ่งพาอาศัยทั้งหมดในเวลาเดียวกัน

ในขณะที่มีตัวเลือกที่มีประโยชน์มากมายอยู่ แต่ความแปรปรวนที่เท่ากันของมาตรฐานหุ้นเก่าแบบสองตัวอย่าง t-test สามารถทำงานได้ดีในตัวอย่างขนาดใหญ่ที่มีขนาดเท่ากันตราบใดที่ประชากรไม่ไกลจากปกติมาก / skew) และเรามีความเป็นอิสระใกล้กัน

ทางเลือกมีประโยชน์ในโฮสต์ของสถานการณ์ที่เราอาจไม่มั่นใจกับ t-test แบบธรรมดา ... และโดยทั่วไปก็ยังทำงานได้ดีเมื่อข้อสันนิษฐานของ t-test ใกล้เคียงหรือพบเจอ

Welch เป็นค่าเริ่มต้นที่สมเหตุสมผลหากการกระจายมีแนวโน้มที่จะไม่หลงทางไกลเกินไปจากปกติ (ด้วยตัวอย่างที่มีขนาดใหญ่กว่า

ในขณะที่การทดสอบการเปลี่ยนรูปแบบนั้นยอดเยี่ยมโดยไม่มีการสูญเสียพลังงานเมื่อเทียบกับ t-test เมื่อมีการสันนิษฐาน (และประโยชน์ที่เป็นประโยชน์ของการอนุมานโดยตรงเกี่ยวกับปริมาณของดอกเบี้ย) Wilcoxon-Mann-Whitney นั้นเป็นทางเลือกที่ดีกว่าถ้า หางอาจหนัก ด้วยสมมติฐานเพิ่มเติมเล็กน้อย WMW สามารถให้ข้อสรุปที่เกี่ยวข้องกับการเปลี่ยนค่าเฉลี่ย (มีเหตุผลอื่น ๆ ที่เราอาจเลือกใช้ในการทดสอบการเปลี่ยนรูป)

[ถ้าคุณรู้ว่าคุณกำลังพูดถึงจำนวนครั้งหรือเวลาที่รอคอยหรือข้อมูลประเภทเดียวกันเส้นทาง GLM มักจะสมเหตุสมผล หากคุณรู้เพียงเล็กน้อยเกี่ยวกับรูปแบบการพึ่งพาที่เป็นไปได้นั้นก็มีการจัดการอย่างง่ายดายเช่นกันและควรพิจารณาถึงศักยภาพในการพึ่งพาอาศัย]

ดังนั้นในขณะที่การทดสอบ t จะไม่เป็นเรื่องของอดีตคุณสามารถทำได้เกือบตลอดเวลาหรือเมื่อใช้และอาจได้รับประโยชน์อย่างมากเมื่อไม่ได้สมัครเป็นหนึ่งในทางเลือก . ซึ่งก็คือผมเห็นด้วยอย่างกว้าง ๆ กับความเชื่อมั่นในโพสต์นั้นเกี่ยวกับการทดสอบ t ... เวลาส่วนใหญ่ที่คุณควรคิดถึงสมมติฐานของคุณก่อนที่จะรวบรวมข้อมูลและถ้ามีพวกเขาอาจไม่คาดหวังจริงๆ เพื่อให้ทันกับการทดสอบ t-test มักจะไม่มีอะไรจะเสียในการไม่ได้ตั้งสมมติฐานว่าเพราะทางเลือกมักจะทำงานได้ดีมาก

หากมีปัญหาอย่างมากในการรวบรวมข้อมูลก็ไม่มีเหตุผลที่จะไม่ลงทุนเวลาด้วยความจริงใจพิจารณาวิธีการที่ดีที่สุดในการหาข้อสรุปของคุณ

โปรดทราบว่าโดยทั่วไปฉันแนะนำให้ทดสอบสมมติฐานอย่างชัดเจน - ไม่เพียง แต่ตอบคำถามผิด ๆ เท่านั้น แต่ทำเช่นนั้นแล้วเลือกการวิเคราะห์ตามการปฏิเสธหรือการไม่ปฏิเสธสมมติฐานที่ส่งผลกระทบต่อคุณสมบัติของการทดสอบทั้งสองตัวเลือก ถ้าคุณไม่สามารถตั้งสมมติฐานได้อย่างปลอดภัย (เพราะคุณรู้เกี่ยวกับกระบวนการที่ดีพอที่คุณสามารถสันนิษฐานได้หรือเพราะกระบวนการไม่ไวต่อสถานการณ์นั้นในสถานการณ์ของคุณ) โดยทั่วไปแล้วคุณควรใช้ขั้นตอนนี้ดีกว่า ที่ไม่คิดว่ามัน


# set up some data
x <- c(53.4, 59.0, 40.4, 51.9, 43.8, 43.0, 57.6)
y <- c(49.1, 57.9, 74.8, 46.8, 48.8, 43.7)
xyv <- stack(list(x=x,y=y))$values
nx  <- length(x)

# do sample-x mean for all combinations for permutation test
permmean = combn(xyv,nx,mean)

# do the equivalent resampling for a randomization test
randmean <- replicate(100000,mean(sample(xyv,nx)))

# find p-value for permutation test
left  = mean(permmean<=mean(x))
# for the other tail, "at least as extreme" being as far above as the sample
# was below
right = mean(permmean>=(mean(xyv)*2-mean(x)))
pvalue_perm = left+right
"Permutation test p-value"; pvalue_perm

# this is easier: 
#      pvalue = mean(abs(permmean-mean(xyv))>=abs(mean(x)-mean(xyv))) 
# but I'd keep left and right above for adapting to other tests

# find p-value for randomization test
left  = mean(randmean<=mean(x))
right = mean(randmean>=(mean(xyv)*2-mean(x)))
pvalue_rand = left+right
"Randomization test p-value"; pvalue_rand

(ผลลัพธ์ p-value คือ 0.538 และ 0.539 ตามลำดับ; t-test สามัญสองตัวอย่างที่สอดคล้องกันมีค่า p-0.504 และ Welch-Satterthwaite t-test มี p-value 0.522)

โปรดทราบว่ารหัสสำหรับการคำนวณอยู่ในแต่ละกรณีที่ 1 บรรทัดสำหรับชุดค่าผสมสำหรับการทดสอบการเปลี่ยนแปลงและยังสามารถทำค่า p ใน 1 บรรทัด

การปรับสิ่งนี้ให้กับฟังก์ชั่นที่ดำเนินการทดสอบการเปลี่ยนรูปหรือการทดสอบแบบสุ่มและผลผลิตที่ออกมาค่อนข้างจะเหมือนกับการทดสอบแบบทีจะเป็นเรื่องเล็กน้อย

นี่คือการแสดงผล:

ป้อนคำอธิบายรูปภาพที่นี่

# Draw a display to show distn & p-vale region for both 
opar <- par()
par(mfrow=c(2,1))
hist(permmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)
hist(randmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)

par(opar)

ในบรรทัดที่ 16 ของรหัสแรกมีการพิมพ์ผิดขนาดเล็ก ฉันเชื่อว่ามันควรอ่าน: # pvalue = mean (abs (permmean-mean (xyv))> = abs (mean (x) -mean (xyv)) ทำไมหางขวาจึงถูกทดสอบว่า right = mean (permmean> = 2 * mean (xyv) - mean (x))
Antoni Parellada

คำตอบที่ดี (+1) แต่โดยทั่วไปฉันไม่เห็นด้วยกับข้อความที่มักจะแพ้เล็กน้อยโดยไม่ตั้งสมมติฐานเว้นแต่จะอ้างถึงการทดสอบ t เท่านั้น มันค่อนข้างชัดเจนว่ามันควรจะเป็นข้อความทั่วไปหรือไม่ สำหรับแบบจำลองที่ซับซ้อนมากขึ้นและข้อ จำกัด ขนาดตัวอย่างที่ จำกัด นั้นมักมีความสำคัญเช่นในรูปแบบของนักบวชที่มีข้อมูลน้อย
Erik

1
@Erik มันไม่ได้ตั้งใจเป็นคำสั่งทั่วไป ให้ฉันอธิบาย
Glen_b

1
เสื้อเสื้อ

2
@ สเตฟานมีข้อควรพิจารณาอื่น ๆ อีกมากมายที่นั่น (และชุดของทางเลือกที่ใช้กันอย่างแพร่หลายลดลงอย่างน้อยถ้าเราดูการถดถอยหลายครั้ง) ที่จะตอบในกรณีนั้นจะนานและมีความแตกต่างที่สำคัญบางอย่าง
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.