ฉันมีชุดข้อมูลที่มีการตรวจสอบข้อมูลค่ารักษาพยาบาลนับหมื่น ข้อมูลนี้เอียงไปทางขวาอย่างมากและมีศูนย์จำนวนมาก ดูเหมือนว่าสำหรับคนสองชุด (ในกรณีนี้มีวงดนตรีสองวงที่มี> 3000 obs ต่อคน):
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
ถ้าฉันทำการทดสอบ t ของ Welch กับข้อมูลนี้ฉันจะได้ผลลัพธ์กลับมา:
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
ฉันรู้ว่ามันไม่ถูกต้องที่จะใช้การทดสอบแบบ t บนข้อมูลนี้เนื่องจากมันไม่ดีนัก อย่างไรก็ตามถ้าฉันใช้การทดสอบการเปลี่ยนรูปสำหรับความแตกต่างของค่าเฉลี่ยฉันจะได้ค่า p เกือบเท่ากันตลอดเวลา
ใช้แพ็คเกจดัดใน R และใบอนุญาตกับ Monte Carlo ที่แน่นอน
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
ทำไมสถิติการทดสอบการเปลี่ยนรูปออกมาใกล้เคียงกับค่า t.test มากที่สุด ถ้าฉันใช้บันทึกของข้อมูลฉันจะได้ค่า t.test ที่ 0.28 และเหมือนกันจากการทดสอบการเปลี่ยนรูป ฉันคิดว่าค่าการทดสอบแบบทดสอบเป็นขยะมากกว่าสิ่งที่ฉันได้รับที่นี่ นี่เป็นความจริงของชุดข้อมูลอื่น ๆ ที่ฉันมีเช่นนี้และฉันสงสัยว่าทำไมการทดสอบ t จึงดูเหมือนว่าจะทำงานได้เมื่อมันไม่ควร
ความกังวลของฉันที่นี่คือค่าใช้จ่ายส่วนบุคคลไม่ได้มีหลายกลุ่มย่อยของคนที่มีการกระจายค่าใช้จ่ายที่แตกต่างกันมาก (ผู้หญิงกับผู้ชายเงื่อนไขเรื้อรัง ฯลฯ ) ที่ดูเหมือนจะทำให้สูญเสียข้อกำหนดของ เกี่ยวกับสิ่งนั้น?