จะทำอย่างไรเมื่อค่าเฉลี่ยของสองตัวอย่างแตกต่างกันอย่างมีนัยสำคัญ แต่ความแตกต่างนั้นเล็กเกินไปที่จะสำคัญ


13

ฉันมีสองตัวอย่าง (ในทั้งสองกรณี) ค่าเฉลี่ยต่างกันประมาณสองเท่าของค่ามาตรฐานรวม dev ส่งผลให้มูลค่าอยู่ที่ประมาณ 10 ขณะที่มันเป็นเรื่องที่ดีที่จะได้รู้ว่าเราได้แสดงให้เห็นแน่ชัดว่าหมายถึงจะไม่เหมือนกันนี้ดูเหมือนว่าฉันจะถูกผลักดันโดย n ขนาดใหญ่ เมื่อดูที่ฮิสโตแกรมของข้อมูลฉันไม่รู้สึกว่าเช่น p-value เล็ก ๆ เป็นตัวแทนของข้อมูลจริงๆและโดยสุจริตไม่รู้สึกสะดวกสบายในการอ้างอิง ฉันอาจถามคำถามผิด สิ่งที่ฉันคิดคือ: ตกลงวิธีการที่แตกต่างกัน แต่ไม่สำคัญว่าในขณะที่การกระจายการแบ่งปันที่ทับซ้อนกันอย่างมีนัยสำคัญ?Tn70T

นี่คือสิ่งที่การทดสอบแบบเบย์มีประโยชน์หรือไม่ ถ้าเป็นที่ที่เหมาะสำหรับการเริ่มต้น googling สักหน่อยไม่ได้ให้ประโยชน์อะไรเลย แต่ฉันอาจไม่ถามคำถามที่ถูกต้อง หากนี่เป็นสิ่งที่ผิดใครมีคำแนะนำใด ๆ หรือนี่เป็นเพียงจุดสำหรับการอภิปรายซึ่งต่างจากการวิเคราะห์เชิงปริมาณ


ผมแค่อยากจะเพิ่มทุกคำตอบอื่น ๆ ว่าคำสั่งแรกของคุณเป็นสิ่งที่ผิด: คุณยังไม่ได้แสดงให้เห็นแน่ชัดว่าวิธีการที่แตกต่างกัน เสื้อทดสอบ p-value จะบอกคุณว่าน่าจะเป็นของการสังเกตข้อมูลหรือค่าที่รุนแรงมากขึ้นของมันคุณมีแนวโน้มที่ / ไม่น่าให้สมมติฐาน (ซึ่งสำหรับ t-test เป็นคือ : { "หมายถึงมีค่าเท่ากัน"}) ซึ่งไม่ได้หมายความว่าวิธีการที่ในความเป็นจริงที่แตกต่างกัน นอกจากนี้ฉันคิดว่าคุณยังได้ทำการทดสอบแบบ F เพื่อทดสอบความเท่าเทียมกันของความแปรปรวนก่อนที่จะทำการทดสอบความแปรปรวนแบบรวมกลุ่มด้วยใช่ไหม? μA=μBH0
Néstor

คำถามของคุณนั้นดีมากเพราะมันทำให้เกิดความแตกต่างที่สำคัญและแสดงให้เห็นว่าคุณกำลังคิดถึงข้อมูลของคุณมากกว่าที่จะมองหาดวงดาวในผลลัพธ์ทางสถิติและประกาศตัวเอง หลายคำตอบที่ชี้ให้เห็นนัยสำคัญทางสถิติไม่ได้เช่นเดียวกับที่มีความหมาย และเมื่อคุณคิดเกี่ยวกับมันพวกเขาไม่สามารถ: ขั้นตอนทางสถิติจะรู้ได้อย่างไรว่าความแตกต่างของค่าเฉลี่ยนัยสำคัญทางสถิติที่ 0.01 หมายถึงบางอย่างในฟิลด์ A แต่มีความหมายเล็ก ๆ ในฟิลด์ B
Wayne

เป็นธรรมมากพอที่ฉันจะไม่เข้าใจคำว่า Spam แต่เมื่อ p-value เหมือนสิ่งที่ฉันได้รับฉันมักจะไม่ยุ่งเกี่ยวกับคำมากเกินไป ฉันทำการทดสอบ F (และ QQ-plot) มันใกล้พอสำหรับดนตรีแจ๊สอย่างที่พวกเขาพูด
Bowler

1
FWIW ถ้าค่าเฉลี่ยของคุณแยกออกจากกัน 2 SD นั่นดูเหมือนจะแตกต่างกันมากสำหรับฉัน แน่นอนว่ามันจะขึ้นอยู่กับสาขาของคุณ แต่นั่นคือความแตกต่างที่ผู้คนจะสังเกตเห็นได้อย่างง่ายดายด้วยตาเปล่า (เช่นความสูงเฉลี่ยของชายและหญิงในสหรัฐอเมริกาที่มีอายุระหว่าง 20-29 ปีแตกต่างกันประมาณ 1.5 SD) IMO ไม่ทับซ้อนคุณไม่จำเป็นต้องทำการวิเคราะห์ข้อมูลใด ๆ อย่างน้อย w /เล็กเพียง 6,จะเท่ากับ <.05 ถ้าการแจกแจงไม่ทับซ้อนกัน Np
gung - Reinstate Monica

ฉันยอมรับความแตกต่างนั้นใหญ่แม้ว่าจะไม่เคารพอย่างเต็มที่ในขณะที่มันเปิดออก
กะลา

คำตอบ:


12

ให้แสดงค่าเฉลี่ยของประชากรกลุ่มแรกและแสดงค่าเฉลี่ยของประชากรกลุ่มที่สอง ดูเหมือนว่าคุณเคยใช้สองตัวอย่าง -test เพื่อทดสอบว่า\ผลลัพธ์ที่สำคัญบอกเป็นนัยว่าแต่ความแตกต่างนั้นดูจะเล็กไปสำหรับแอปพลิเคชันของคุณμ1μ2tμ1=μ2μ1μ2

What've คุณพบความจริงที่ว่ามีนัยสำคัญทางสถิติมักจะมีสิ่งอื่นมากกว่าอย่างมีนัยสำคัญสำหรับการประยุกต์ใช้ ในขณะที่ความแตกต่างอาจจะมีนัยสำคัญทางสถิติมันอาจจะยังไม่เป็นที่มีความหมาย

การทดสอบแบบเบย์จะไม่ช่วยแก้ปัญหานั้น - คุณจะยังสรุปได้ว่ามีความแตกต่างอยู่

อย่างไรก็ตามอาจมีทางออก ตัวอย่างเช่นสำหรับสมมติฐานด้านเดียวคุณสามารถตัดสินใจได้ว่าถ้าเป็นหน่วยมากกว่าดังนั้นมันจะเป็นความแตกต่างที่มีความหมายซึ่งใหญ่พอที่จะนำไปใช้กับแอปพลิเคชันของคุณμ1Δμ2

ในกรณีที่คุณจะทดสอบว่าแทนว่า 0 -statistic (สมมติแปรปรวนเท่ากัน) จะในกรณีที่เป็น โดยที่คือการประมาณค่าเบี่ยงเบนมาตรฐานของภายใต้สมมติฐานว่าง, สถิตินี้คือกับองศาอิสระμ1μ2Δμ1μ2=0t

T=x¯1x¯2Δsp1/n1+1/n2
sptn1+n22

เป็นวิธีที่ง่ายในการดำเนินการทดสอบนี้คือการลบจากการสังเกตของคุณจากประชากรก่อนแล้วจึงดำเนินการตามปกติด้านเดียวสองตัวอย่าง -testΔt


8

มันถูกต้องเพื่อเปรียบเทียบวิธีการต่าง ๆ แต่ไม่ใช่โดยมีจุดประสงค์ในการเลือกวิธีที่เหมาะสมกับความปรารถนา / ความเชื่อของเรา

คำตอบของฉันสำหรับคำถามของคุณคือ: เป็นไปได้ว่าการแจกแจงสองรายการซ้อนทับกันในขณะที่พวกเขามีวิธีการที่แตกต่างกันซึ่งน่าจะเป็นกรณีของคุณ (แต่เราจะต้องดูข้อมูลและบริบทของคุณ

ผมจะแสดงให้เห็นถึงนี้โดยใช้สองแนวทางสำหรับการเปรียบเทียบวิธีการปกติ

1. ทดสอบt

พิจารณาสองตัวอย่างที่จำลองขนาดจากและจากนั้นค่า value จะอยู่ที่ประมาณเช่นเดียวกับในกรณีของคุณ (ดูรหัส R ด้านล่าง)70N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

อย่างไรก็ตามความหนาแน่นแสดงการทับซ้อนกันมาก แต่จำไว้ว่าคุณกำลังทดสอบสมมติฐานเกี่ยวกับค่าเฉลี่ยซึ่งในกรณีนี้แตกต่างกันอย่างชัดเจน แต่เนื่องจากค่าของมีการทับซ้อนกันของความหนาแน่นσ

ป้อนคำอธิบายรูปภาพที่นี่

2. ความน่าจะเป็นของโปรไฟล์μ

สำหรับความหมายของความน่าจะเป็นส่วนตัวและความกรุณาดูที่ 1และ2

ในกรณีนี้โปรไฟล์ความน่าจะเป็นของของตัวอย่างขนาดและค่าเฉลี่ยตัวอย่างเป็นเพียงขวา]μnx¯Rp(μ)=exp[n(x¯μ)2]

สำหรับข้อมูลจำลองเหล่านี้สามารถคำนวณได้ใน R ดังนี้

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

อย่างที่คุณเห็นระยะเวลาของโอกาสในการและไม่ทับซ้อนกันในระดับที่เหมาะสมμ1μ2

3. ด้านหลังของโดยใช้ Jeffreys ก่อนμ

พิจารณาJeffreys ก่อนหน้าของ(μ,σ)

π(μ,σ)1σ2

ส่วนหลังของสำหรับชุดข้อมูลแต่ละชุดสามารถคำนวณได้ดังนี้μ

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

อีกครั้งช่วงเวลาความน่าเชื่อถือสำหรับวิธีการที่ไม่ทับซ้อนกันในระดับที่เหมาะสมใด ๆ

โดยสรุปคุณสามารถดูว่าวิธีการทั้งหมดเหล่านี้บ่งบอกถึงความแตกต่างอย่างมีนัยสำคัญของวิธีการ (ซึ่งเป็นผลประโยชน์หลัก) แม้จะมีการกระจายที่ทับซ้อนกัน

วิธีเปรียบเทียบที่แตกต่าง

เมื่อพิจารณาจากความกังวลของคุณเกี่ยวกับความหนาแน่นที่ทับซ้อนกันจำนวนดอกเบี้ยอื่นอาจเป็นความน่าจะเป็นที่ตัวแปรสุ่มตัวแรกมีขนาดเล็กกว่าตัวแปรตัวที่สอง ปริมาณนี้สามารถประมาณ nonparametrically เช่นเดียวกับในคำตอบนี้ โปรดทราบว่าไม่มีสมมติฐานการกระจายที่นี่ สำหรับข้อมูลที่จำลองแล้วตัวประมาณค่านี้คือแสดงการเหลื่อมกันในแง่นี้ในขณะที่ค่าเฉลี่ยแตกต่างกันอย่างมีนัยสำคัญ โปรดดูรหัส R ที่แสดงด้านล่าง0.8823825P(X<Y)0.8823825

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

ฉันหวังว่านี่จะช่วยได้.


2
(+1) ขอบคุณสำหรับการตอบกลับที่มีประโยชน์จริง ๆ เกี่ยวกับวิธีการแบบเบย์ นอกจากนี้ลิงก์ P (X <Y) ยังตอบปัญหาอื่นที่ฉันสงสัยในการวิเคราะห์เดียวกัน
Bowler

7

ตอบคำถามที่ถูกต้อง

ตกลงวิธีการที่แตกต่างกัน แต่ไม่สำคัญว่าในขณะที่การกระจายการแบ่งปันที่ทับซ้อนกันอย่างมีนัยสำคัญ?

การทดสอบใด ๆ ที่ถามว่าค่าเฉลี่ยของกลุ่มแตกต่างกันหรือไม่เมื่อใช้ถูกต้องจะบอกคุณว่าค่าเฉลี่ยแตกต่างกันหรือไม่ มันจะไม่บอกคุณว่าการกระจายตัวของข้อมูลนั้นแตกต่างกันเนื่องจากเป็นคำถามที่แตกต่างกัน คำถามนั้นขึ้นอยู่กับว่าค่าเฉลี่ยนั้นแตกต่างกันหรือไม่ แต่ยังรวมถึงสิ่งอื่น ๆ อีกมากมายที่อาจสรุปได้ว่าเป็นความแปรปรวนความเบ้และความโด่ง

คุณทราบอย่างถูกต้องว่าความแน่นอนเกี่ยวกับตำแหน่งที่ขึ้นอยู่กับปริมาณของข้อมูลที่คุณต้องประมาณการดังนั้นการมีข้อมูลมากขึ้นจะช่วยให้คุณเห็นความแตกต่างของค่าเฉลี่ยในการแจกแจงที่ทับซ้อนกันมากขึ้น แต่คุณสงสัยว่า

เช่น p-value ขนาดเล็กเป็นตัวแทนของข้อมูลจริงๆ

แน่นอนมันไม่ได้เป็นอย่างน้อยไม่ได้โดยตรง และนี่คือการออกแบบ เป็นตัวแทน (พูดโดยประมาณ) ของความเชื่อมั่นที่คุณสามารถมีได้ว่าตัวอย่างสถิติคู่หนึ่งของข้อมูล (ไม่ใช่ข้อมูลเอง) นั้นแตกต่างกัน

หากคุณต้องการแสดงข้อมูลด้วยวิธีที่เป็นทางการมากกว่าเพียงแค่แสดงฮิสโตแกรมและทดสอบช่วงเวลาของมันบางทีอาจเป็นแผนการแปลงความหนาแน่นที่เป็นประโยชน์ มันค่อนข้างจะขึ้นอยู่กับอาร์กิวเมนต์ที่คุณใช้ในการทดสอบ

เวอร์ชัน Bayesian

ในทุกประเด็นเหล่านี้ 'การทดสอบ' และการทดสอบแบบ T ต่างกันแบบเบย์จะทำงานในลักษณะเดียวกันเพราะพวกเขาพยายามทำสิ่งเดียวกัน ข้อดีเดียวที่ฉันสามารถคิดสำหรับการใช้วิธีการแบบเบย์คือ a) ว่ามันจะเป็นเรื่องง่ายที่จะทำแบบทดสอบที่ช่วยให้ความแปรปรวนที่แตกต่างกันอาจจะเป็นเพราะแต่ละกลุ่มและ b) ว่ามันจะมุ่งเน้นไปที่การประมาณน่าจะเป็นขนาดของความแตกต่างในวิธีการ แทนที่จะค้นหาค่า p สำหรับการทดสอบความแตกต่าง ที่กล่าวไว้ว่าข้อดีเหล่านี้ค่อนข้างน้อยเช่นในข) คุณสามารถรายงานช่วงความมั่นใจสำหรับความแตกต่างได้ตลอดเวลา

เครื่องหมายอัญประกาศด้านบน 'การทดสอบ' นั้นมีเจตนา แน่นอนว่าเป็นไปได้ที่จะทำการทดสอบสมมติฐานแบบเบย์และผู้คนก็ทำเช่นกัน อย่างไรก็ตามฉันขอแนะนำว่าข้อได้เปรียบเชิงเปรียบเทียบของวิธีนี้คือการมุ่งเน้นไปที่การสร้างแบบจำลองที่เป็นไปได้ของข้อมูลและการสื่อสารแง่มุมที่สำคัญกับความไม่แน่นอนในระดับที่เหมาะสม


3

ประการแรกไม่ได้เป็นปัญหาที่จะยึดการทดสอบบ่อยครั้ง ปัญหาอยู่ในสมมติฐานว่างว่าค่าเฉลี่ยเท่ากันทุกประการ ดังนั้นหากจำนวนประชากรมีความแตกต่างกันในจำนวนเล็กน้อยและขนาดตัวอย่างมีขนาดใหญ่พอที่โอกาสที่จะปฏิเสธสมมติฐานว่างนี้จะสูงมาก ดังนั้นค่า p สำหรับการทดสอบของคุณจึงน้อยมาก ผู้กระทำผิดเป็นทางเลือกของสมมติฐานว่าง เลือก d> 0 แล้วหาสมมุติฐานว่างว่าค่าเฉลี่ยต่างกันน้อยกว่า d ในค่าสัมบูรณ์โดยน้อยกว่า d คุณเลือก d เพื่อให้ความแตกต่างที่แท้จริงนั้นใหญ่พอที่จะปฏิเสธได้ ปัญหาของคุณหายไป การทดสอบแบบเบย์ไม่สามารถแก้ปัญหาของคุณได้หากคุณยืนยันในสมมติฐานว่างของค่าเฉลี่ยที่แน่นอน


ฉันกำลังเขียนคำตอบของฉันในเวลาเดียวกันกับอีกสองคน
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.