มันถูกต้องเพื่อเปรียบเทียบวิธีการต่าง ๆ แต่ไม่ใช่โดยมีจุดประสงค์ในการเลือกวิธีที่เหมาะสมกับความปรารถนา / ความเชื่อของเรา
คำตอบของฉันสำหรับคำถามของคุณคือ: เป็นไปได้ว่าการแจกแจงสองรายการซ้อนทับกันในขณะที่พวกเขามีวิธีการที่แตกต่างกันซึ่งน่าจะเป็นกรณีของคุณ (แต่เราจะต้องดูข้อมูลและบริบทของคุณ
ผมจะแสดงให้เห็นถึงนี้โดยใช้สองแนวทางสำหรับการเปรียบเทียบวิธีการปกติ
1. ทดสอบt
พิจารณาสองตัวอย่างที่จำลองขนาดจากและจากนั้นค่า value จะอยู่ที่ประมาณเช่นเดียวกับในกรณีของคุณ (ดูรหัส R ด้านล่าง)70N(10,1)N(12,1)t10
rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)
set.seed(77)
# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")
# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)
# t test
t.test(dat1,dat2)
อย่างไรก็ตามความหนาแน่นแสดงการทับซ้อนกันมาก แต่จำไว้ว่าคุณกำลังทดสอบสมมติฐานเกี่ยวกับค่าเฉลี่ยซึ่งในกรณีนี้แตกต่างกันอย่างชัดเจน แต่เนื่องจากค่าของมีการทับซ้อนกันของความหนาแน่นσ
2. ความน่าจะเป็นของโปรไฟล์μ
สำหรับความหมายของความน่าจะเป็นส่วนตัวและความกรุณาดูที่ 1และ2
ในกรณีนี้โปรไฟล์ความน่าจะเป็นของของตัวอย่างขนาดและค่าเฉลี่ยตัวอย่างเป็นเพียงขวา]μnx¯Rp(μ)=exp[−n(x¯−μ)2]
สำหรับข้อมูลจำลองเหล่านี้สามารถคำนวณได้ใน R ดังนี้
# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}
Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}
vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)
# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")
อย่างที่คุณเห็นระยะเวลาของโอกาสในการและไม่ทับซ้อนกันในระดับที่เหมาะสมμ1μ2
3. ด้านหลังของโดยใช้ Jeffreys ก่อนμ
พิจารณาJeffreys ก่อนหน้าของ(μ,σ)
π(μ,σ)∝1σ2
ส่วนหลังของสำหรับชุดข้อมูลแต่ละชุดสามารถคำนวณได้ดังนี้μ
# Posterior of mu
library(mcmc)
lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}
lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}
NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")
อีกครั้งช่วงเวลาความน่าเชื่อถือสำหรับวิธีการที่ไม่ทับซ้อนกันในระดับที่เหมาะสมใด ๆ
โดยสรุปคุณสามารถดูว่าวิธีการทั้งหมดเหล่านี้บ่งบอกถึงความแตกต่างอย่างมีนัยสำคัญของวิธีการ (ซึ่งเป็นผลประโยชน์หลัก) แม้จะมีการกระจายที่ทับซ้อนกัน
⋆วิธีเปรียบเทียบที่แตกต่าง
เมื่อพิจารณาจากความกังวลของคุณเกี่ยวกับความหนาแน่นที่ทับซ้อนกันจำนวนดอกเบี้ยอื่นอาจเป็นความน่าจะเป็นที่ตัวแปรสุ่มตัวแรกมีขนาดเล็กกว่าตัวแปรตัวที่สอง ปริมาณนี้สามารถประมาณ nonparametrically เช่นเดียวกับในคำตอบนี้ โปรดทราบว่าไม่มีสมมติฐานการกระจายที่นี่ สำหรับข้อมูลที่จำลองแล้วตัวประมาณค่านี้คือแสดงการเหลื่อมกันในแง่นี้ในขณะที่ค่าเฉลี่ยแตกต่างกันอย่างมีนัยสำคัญ โปรดดูรหัส R ที่แสดงด้านล่าง0.8823825P(X<Y)0.8823825
# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}
# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
}
KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
}
# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))
}
nonpest(dat1,dat2)
ฉันหวังว่านี่จะช่วยได้.