t-test กับข้อมูลที่บิดเบือนสูง


18

ฉันมีชุดข้อมูลที่มีการตรวจสอบข้อมูลค่ารักษาพยาบาลนับหมื่น ข้อมูลนี้เอียงไปทางขวาอย่างมากและมีศูนย์จำนวนมาก ดูเหมือนว่าสำหรับคนสองชุด (ในกรณีนี้มีวงดนตรีสองวงที่มี> 3000 obs ต่อคน):

 Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4536.0    302.6 395300.0 
Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4964.0    423.8 721700.0 

ถ้าฉันทำการทดสอบ t ของ Welch กับข้อมูลนี้ฉันจะได้ผลลัพธ์กลับมา:

Welch Two Sample t-test

data:  x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2185.896  1329.358
sample estimates:
mean of x mean of y 
 4536.186  4964.455 

ฉันรู้ว่ามันไม่ถูกต้องที่จะใช้การทดสอบแบบ t บนข้อมูลนี้เนื่องจากมันไม่ดีนัก อย่างไรก็ตามถ้าฉันใช้การทดสอบการเปลี่ยนรูปสำหรับความแตกต่างของค่าเฉลี่ยฉันจะได้ค่า p เกือบเท่ากันตลอดเวลา

ใช้แพ็คเกจดัดใน R และใบอนุญาตกับ Monte Carlo ที่แน่นอน

    Exact Permutation Test Estimated by Monte Carlo

data:  x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y 
      -428.2691 

p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
 0.5117552 0.7277040 

ทำไมสถิติการทดสอบการเปลี่ยนรูปออกมาใกล้เคียงกับค่า t.test มากที่สุด ถ้าฉันใช้บันทึกของข้อมูลฉันจะได้ค่า t.test ที่ 0.28 และเหมือนกันจากการทดสอบการเปลี่ยนรูป ฉันคิดว่าค่าการทดสอบแบบทดสอบเป็นขยะมากกว่าสิ่งที่ฉันได้รับที่นี่ นี่เป็นความจริงของชุดข้อมูลอื่น ๆ ที่ฉันมีเช่นนี้และฉันสงสัยว่าทำไมการทดสอบ t จึงดูเหมือนว่าจะทำงานได้เมื่อมันไม่ควร

ความกังวลของฉันที่นี่คือค่าใช้จ่ายส่วนบุคคลไม่ได้มีหลายกลุ่มย่อยของคนที่มีการกระจายค่าใช้จ่ายที่แตกต่างกันมาก (ผู้หญิงกับผู้ชายเงื่อนไขเรื้อรัง ฯลฯ ) ที่ดูเหมือนจะทำให้สูญเสียข้อกำหนดของ เกี่ยวกับสิ่งนั้น?


มันเกิดขึ้นได้อย่างไรว่าทั้งค่าต่ำสุดและค่ามัธยฐานของข้อมูลของคุณเป็นศูนย์?
Alecos Papadopoulos

มากกว่าครึ่งหนึ่งของค่าเป็นศูนย์แสดงว่าครึ่งหนึ่งของผู้คนไม่มีการรักษาพยาบาลในปีนั้น
Chris

และทำไมคุณถึงคิดว่าการทดสอบการเปลี่ยนรูปควรจะแตกต่างกัน? (หากทั้งสองกลุ่มมีการแจกแจงแบบไม่ธรรมดาเหมือนกัน)
FairMiles

โปรดทราบว่า iid เป็นสองสมมติฐานที่แยกจากกัน ที่แรกก็คือ 'อิสระ' ประการที่สองคือ 'กระจายตัวเหมือนกัน' คุณดูเหมือนจะแนะนำว่าข้อสังเกตนั้นไม่ได้ 'กระจายตัวเหมือนกัน' สิ่งนี้ไม่ควรส่งผลกระทบต่อคำตอบที่ให้ไว้เนื่องจากเรายังสามารถสรุปได้ว่าการสังเกตทั้งหมดมาจากการแจกแจงครั้งใหญ่ แต่ถ้าคุณคิดว่าการสังเกตนั้นไม่เป็นอิสระนั่นเป็นปัญหาที่แตกต่างและยากกว่ามาก
zkurtz

คำตอบ:


29

ทั้ง t-test และ test permutation ไม่มีอำนาจมากพอที่จะระบุความแตกต่างในค่าเฉลี่ยระหว่างการแจกแจงแบบเบ้ที่ผิดปกติสองอย่าง ดังนั้นพวกเขาทั้งคู่จึงให้ค่า p-anodyne ซึ่งบ่งชี้ว่าไม่มีนัยสำคัญเลย ปัญหาไม่ใช่ว่าพวกเขาดูเหมือนจะเห็นด้วย; มันเป็นเพราะพวกเขามีช่วงเวลาที่ยากลำบากในการตรวจสอบความแตกต่างใด ๆ เลยพวกเขาก็ไม่เห็นด้วย!


สำหรับสัญชาตญาณบางอย่างพิจารณาสิ่งที่จะเกิดขึ้นหากมีการเปลี่ยนแปลงค่าเดียวที่เกิดขึ้นในหนึ่งชุดข้อมูล สมมติว่าจำนวนสูงสุดของ 721,700 ไม่ได้เกิดขึ้นในชุดข้อมูลที่สองเช่น ค่าเฉลี่ยจะลดลงประมาณ 721700/3000 ซึ่งเป็นประมาณ 240 แต่ความแตกต่างของค่าเฉลี่ยคือ 4964-4536 = 438 ไม่ใช่ขนาดใหญ่เป็นสองเท่า ที่แสดงให้เห็น (ถึงแม้มันจะไม่ได้พิสูจน์) ก็ตามการเปรียบเทียบของวิธีการจะไม่พบความแตกต่างที่สำคัญ

อย่างไรก็ตามเราสามารถตรวจสอบได้ว่าการทดสอบแบบทีใช้ไม่ได้ มาสร้างชุดข้อมูลบางอย่างที่มีลักษณะทางสถิติเหมือนกัน เมื่อต้องการทำเช่นนั้นฉันได้สร้างส่วนผสมที่

  • 5/8
  • ข้อมูลที่เหลือมีการแจกแจงล็อกปกติ
  • พารามิเตอร์ของการแจกแจงนั้นได้รับการจัดเรียงเพื่อทำซ้ำวิธีที่สังเกตและควอไทล์ที่สาม

ปรากฎในการจำลองเหล่านี้ว่าค่าสูงสุดอยู่ไม่ไกลจากค่าสูงสุดที่รายงานเช่นกัน

ลองทำซ้ำชุดข้อมูลแรก 10,000 ครั้งและติดตามค่าเฉลี่ย (ผลลัพธ์จะใกล้เคียงกันเมื่อเราทำเช่นนี้กับชุดข้อมูลที่สอง) ฮิสโตแกรมของค่าเฉลี่ยเหล่านี้ประมาณการการกระจายตัวตัวอย่างของค่าเฉลี่ย การทดสอบ t ใช้งานได้เมื่อการแจกแจงนี้ประมาณปกติ ขอบเขตที่เบี่ยงเบนไปจากเกณฑ์ปกติจะระบุขอบเขตที่การกระจายตัวของนักเรียนจะผิดพลาด ดังนั้นสำหรับการอ้างอิงฉันได้วาด (สีแดง) PDF ของการแจกแจงแบบปกติให้พอดีกับผลลัพธ์เหล่านี้

ฮิสโตแกรม 1

เราไม่เห็นรายละเอียดมากนักเนื่องจากมีค่าผิดปกติจำนวนมาก (นั่นเป็นการแสดงให้เห็นถึงความไวของวิธีที่ฉันพูดถึง) มี 123 ของพวกเขา - 1.23% - สูงกว่า 10,000 ให้เรามุ่งเน้นไปที่ส่วนที่เหลือเพื่อให้เราสามารถดูรายละเอียดและเนื่องจากค่าผิดปกติเหล่านี้อาจเกิดจากการสันนิษฐาน lognormality ของการแจกแจงซึ่งไม่จำเป็นต้องเป็นกรณีของชุดข้อมูลดั้งเดิม

ฮิสโตแกรม 2

(3000/428)2=50


นี่คือRรหัสที่สร้างตัวเลขเหล่านี้

#
# Generate positive random values with a median of 0, given Q3,
# and given mean. Make a proportion 1-e of them true zeros.
#
rskew <- function(n, x.mean, x.q3, e=3/8) {
  beta <- qnorm(1 - (1/4)/e)
  gamma <- 2*(log(x.q3) - log(x.mean/e))
  sigma <- sqrt(beta^2 - gamma) + beta
  mu <- log(x.mean/e) - sigma^2/2
  m <- floor(n * e)
  c(exp(rnorm(m, mu, sigma)), rep(0, n-m))
}
#
# See how closely the summary statistics are reproduced.
# (The quartiles will be close; the maxima not too far off;
# the means may differ a lot, though.)
#
set.seed(23)
x <- rskew(3300, 4536, 302.6)
y <- rskew(3400, 4964, 423.8)
summary(x)
summary(y)
#
# Estimate the sampling distribution of the mean.
#
set.seed(17)
sim.x <- replicate(10^4, mean(rskew(3367, 4536, 302.6)))
hist(sim.x, freq=FALSE, ylim=c(0, dnorm(0, sd=sd(sim.x))))
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
hist(sim.x[sim.x < 10000], xlab="x", freq=FALSE)
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
#
# Can a t-test detect a difference with more data?
#
set.seed(23)
n.factor <- 50
z <- replicate(10^3, {
  x <- rskew(3300*n.factor, 4536, 302.6)
  y <- rskew(3400*n.factor, 4964, 423.8)
  t.test(x,y)$p.value
})
hist(z)
mean(z < .05) # The estimated power at a 5% significance level

1
สำหรับตัวอย่างของชุดข้อมูลเบ้สูงที่ t-test อย่างไรก็ตามคือบังคับ (เพราะจำนวนมากของข้อมูล) โปรดดูstats.stackexchange.com/questions/110418/... ทั้งสองกรณีนี้แสดงให้เห็นว่าไม่มีคำตอบแบบตัดและอบแห้งสำหรับคำถาม: คุณต้องพิจารณาทั้งการกระจายของข้อมูลและปริมาณของข้อมูลเมื่อตัดสินใจว่าการทดสอบ t จะมีความหมายและถูกต้องหรือไม่
whuber

3
ฉันชื่นชอบคำถามนี้ด้วยความหวังว่าจะสามารถพบมันได้อีกเมื่อต้องเผชิญกับคนที่คิดว่า n = 30 หรือ n = 300 ก็เพียงพอแล้วที่จะดำเนินการต่อไปและสมมติว่าค่าเฉลี่ยตัวอย่างนั้นมีการแจกแจงตามปกติ ฉันมีตัวอย่างที่จำลองได้ดี แต่มันก็ดีที่แสดงว่านี่เป็นปัญหาเกี่ยวกับข้อมูลจริงเช่นกัน
Glen_b -Reinstate Monica

1
+1 แต่ฉันสงสัยว่าคำแนะนำเชิงปฏิบัติของคุณจะอยู่ในสถานการณ์เช่นนั้น เราควรลองใช้การทดสอบการเปลี่ยนรูปตามค่าสถิติอื่นแทนที่จะเป็นค่าเฉลี่ย (อาจเป็นบางค่าที่สูง) เราควรลองใช้การแปลงสภาพก่อนดำเนินการทดสอบมาตรฐานด้วยวิธีการหรือไม่? หรือควรให้ความหวังในการตรวจจับความแตกต่างที่สำคัญระหว่างสองตัวอย่างหรือไม่
อะมีบาพูดว่า Reinstate Monica

@ amoeba หากความกังวลคือการทดสอบความแตกต่างในทางอื่นการทดสอบการเปลี่ยนแปลงจะไม่ช่วย: คุณจะไม่พบความแตกต่างที่สำคัญที่นี่ หากคุณทดสอบสถิติอื่น ๆ แสดงว่าคุณไม่ได้ทดสอบค่าเฉลี่ย (ซึ่งเกี่ยวข้องกับข้อมูลต้นทุนโดยเฉพาะ!) ดังนั้นการแนะนำนั้นอาจขึ้นอยู่กับวัตถุประสงค์
whuber

4

เมื่อ n มีขนาดใหญ่ (เช่น 300 แม้น้อยกว่า 3000) การทดสอบ t-test จะเหมือนกับการทดสอบ z นั่นคือ t-test ไม่ได้เป็นอะไรมากไปกว่าการประยุกต์ใช้ทฤษฎีบทขีด จำกัด กลางซึ่งบอกว่า MEAN สำหรับแต่ละกลุ่มของคุณเกือบจะกระจายกันตามปกติ (แม้ว่าการสำรวจที่มีพื้นฐานทั้งสองนั้นอยู่ไกลจากปกติมาก) กระจาย!) และนี่ก็เป็นเหตุผลที่เสื้อตารางปกติของคุณไม่รำคาญที่จะแสดงค่า n มากกว่า 1,000 (ตัวอย่างเช่นนี้เสื้อตาราง) ดังนั้นฉันไม่แปลกใจที่เห็นว่าคุณได้รับผลลัพธ์ที่ดีเช่นนั้น

แก้ไข: ฉันดูเหมือนจะประเมินความเบ้และความสำคัญของมันต่ำเกินไป ในขณะที่ประเด็นข้างต้นของฉันมีข้อดีอยู่ในสถานการณ์ที่รุนแรงน้อยกว่า แต่คำตอบของwhuberต่อคำถามนั้นดีกว่ามากโดยรวม


2
เมื่อความเบ้รุนแรงมาก - ตามสถิติที่ยกมาเรายืนยันว่าการกระจายตัวตัวอย่างของค่าเฉลี่ยของ 300 หรือ 3,000 ตัวอย่างจะอยู่ใกล้กับปกติ นั่นคือเหตุผลที่ OP รู้สึกประหลาดใจ คุณตอบโต้ด้วยการบอกว่าคุณไม่แปลกใจ แต่ดูเหมือนว่าจะมีสัญชาตญาณของบุคคลหนึ่งเทียบกับอีกคนหนึ่ง อะไรคือข้อโต้แย้งที่คุณสามารถจัดหาให้กับข้อมูลเหล่านี้ซึ่งแสดงให้เห็นว่า 300 (หรือ 3000) เป็นตัวอย่างที่มีขนาดใหญ่พอสำหรับการทดสอบแบบทีเพื่อให้ทำงานได้ดี
whuber

จุดที่ดี ฉันยอมรับว่าหากข้อมูลมีการบิดเบือนอย่างเพียงพอข้อโต้แย้งของฉันล้มเหลว ดังนั้นคำถามสำหรับฉันคือการบิดเบือนของข้อมูลเป็นอย่างไรและมีผลลัพธ์อย่างเป็นทางการเกี่ยวกับความเบ้กับขนาดตัวอย่างที่ต้องการ
zkurtz

1
ฉันโพสต์คำตอบสำหรับคำถามนั้น เรารู้ (อย่างน้อยประมาณ) วิธีที่ข้อมูลบิดเบือนตามสถิติสรุปในคำถาม ความเบ้นั้นแข็งแกร่งมากจนทั้ง 300 และ 3000 หรือแม้แต่การสำรวจ 30,000 ครั้งต่อกลุ่มจะทำให้การกระจายตัวตัวอย่างของค่าเฉลี่ย "เกือบเป็นปกติ" คุณอาจต้องการประมาณ 300,000 หรือมากกว่านั้นก่อนที่การเรียกร้องนั้นจะเป็นไปได้ ดังนั้นเราต้องหาคำอธิบายที่แตกต่างกันสำหรับสาเหตุที่การทดสอบทั้งสองตกลงกัน ของฉันคือว่าไม่มี "ความประพฤติดี" มากกว่าที่ทั้งสองมีความประพฤติดี
whuber

0

ฉันรู้ว่าคำตอบนี้จะสาย อย่างไรก็ตามฉันได้รับปริญญาเอกด้านการวิจัยบริการสุขภาพดังนั้นฉันจึงทำงานกับข้อมูลด้านการดูแลสุขภาพมากมายรวมถึงข้อมูลค่าใช้จ่าย

ฉันไม่รู้ว่าข้อมูล OP มีอะไร ถ้ามันเป็นข้อมูลแบบตัดขวางโอกาสก็คือว่ามันเป็น IID อย่างสมเหตุสมผล ความเป็นอิสระหมายถึงแต่ละหน่วยงานดังนั้นแต่ละคนมีความเป็นอิสระ นั่นเป็นเหตุผลที่สมเหตุสมผล ในฐานะที่เป็นการกระจายตัวเหมือนกันข้อมูลสามารถสร้างแบบจำลองทั้งหมดมาจากการกระจายแกมม่าในรูปแบบเชิงเส้นทั่วไปที่มีการเชื่อมโยงบันทึก นี่คือสิ่งที่คนทั่วไปมักปฏิบัติกัน หรือถ้าคุณต้องการได้รับแฟนซีอาจมีรูปแบบเครื่องกีดขวาง (เป็นที่นิยมในสาขาเศรษฐศาสตร์) ที่จัดการกับ 0 ส่วนเกิน ซึ่งโดยทั่วไปแล้วเป็นเรื่องปกติในการใช้จ่ายด้านการดูแลสุขภาพ OP มีความถูกต้องทางเทคนิคว่าข้อมูลไม่จำเป็นต้องกระจายตัวเหมือนกันเช่นค่าเฉลี่ยและความแปรปรวนจะเปลี่ยนไปตามอายุ แต่เป็นข้อสมมุติที่ใช้การได้ในรูปแบบการถดถอยหลายแบบ

หากแต่ละคนอยู่ในชุดข้อมูลนานกว่าหนึ่งปีข้อมูลนั้นจะไม่เป็น IID มีรุ่นที่ซับซ้อนกว่าสำหรับสิ่งนั้น ค่อนข้างง่ายอย่างใดอย่างหนึ่งของเหล่านั้นอาจจะเป็นสมการการประมาณค่าทั่วไปการแจกแจงแกมมาและลิงค์เชื่อมโยงอีกครั้งสมมติความสัมพันธ์การทำงานแลกเปลี่ยน หรือถ้าข้อมูลเหล่านี้มาจากข้อมูลการสำรวจที่เปิดเผยต่อสาธารณชนมีความน่าจะเป็นไม่เท่ากันคือ - การสำรวจจำนวนมากเหล่านี้สัมภาษณ์คนหลายคนในแต่ละครัวเรือนและพวกเขายังแบ่งชั้นประชากรและกลุ่มบางกลุ่ม ผู้ใช้จะต้องแก้ไขให้ถูกต้อง

ฉันไม่ได้ใช้การทดสอบ t โดยเฉพาะอย่างยิ่งไม่ใช่ข้อมูลเชิงสังเกตการณ์ มีผู้แนะนำจำนวนมากเกินไปดังนั้นคุณจึงต้องการปรับให้เป็นแบบจำลองเชิงเส้น (ทั่วไป) ดังนั้นฉันไม่สามารถให้ความเห็นเกี่ยวกับคำถามที่เกี่ยวข้องกับการทดสอบ t โดยเฉพาะได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.