ตรวจสอบว่ากระบวนการกระจายแบบเทลด์หนักได้รับการปรับปรุงอย่างมีนัยสำคัญหรือไม่


12

ฉันสังเกตเวลาประมวลผลของกระบวนการก่อนและหลังการเปลี่ยนแปลงเพื่อค้นหาหากกระบวนการได้รับการปรับปรุงโดยการเปลี่ยนแปลง กระบวนการได้รับการปรับปรุงหากเวลาในการประมวลผลลดลง การกระจายเวลาของการประมวลผลเป็นแบบเทลด์ไขมันดังนั้นการเปรียบเทียบตามค่าเฉลี่ยจึงไม่สมเหตุสมผล แต่ฉันอยากทราบว่าความน่าจะเป็นในการสังเกตเวลาประมวลผลที่ลดลงหลังจากการเปลี่ยนแปลงนั้นสูงกว่า 50% หรือไม่

ให้เป็นตัวแปรสุ่มสำหรับเวลาการประมวลผลหลังจากการเปลี่ยนแปลงและYเป็นหนึ่งก่อน ถ้าP ( X < Y )สูงกว่า0.5อย่างมีนัยสำคัญฉันจะบอกว่ากระบวนการได้รับการปรับปรุงXYP(X<Y)0.5

ตอนนี้ฉันมีสังเกตx ฉันของXและเมตรสังเกตY ของY สังเกตน่าจะเป็นของP ( X < Y )คือP = 1nxiXmyjYP(X<Y)Jp^=1nmij1xi<yj

ฉันจะพูดอะไรเกี่ยวกับได้จากการสังเกตการณ์x iและy j ?P(X<Y)xiyj

คำตอบ:


12

ประมาณการของคุณPเท่ากับ Mann-Whitney Uสถิติหารด้วยn (ขอบคุณเกลน!) และดังนั้นจึงเทียบเท่ากับ Wilcoxon ยศรวมสถิติW (ยังเป็นที่รู้จักกันเป็นสถิติ Wilcoxon-Mann-Whitney): W = U + n ( n + 1 )p^UmnWW=U+n(n+1)2โดยที่nคือขนาดตัวอย่างของy(สมมติว่าไม่มีความสัมพันธ์) ดังนั้นคุณสามารถใช้ตาราง / ซอฟต์แวร์ของการทดสอบ Wilcoxon และเปลี่ยนกลับเป็นUเพื่อรับช่วงความเชื่อมั่นหรือค่าp

ให้mเป็นขนาดของกลุ่มตัวอย่างของx , N = m+n n จากนั้น asymptotically

W=Wm(N+1)2mn(N+1)12N(0,1)

ที่มา: Hollander และ Wolfe , วิธีการทางสถิติแบบไม่อิงพารามิเตอร์, ประมาณ p. 117 แต่อาจเป็นหนังสือสถิติที่ไม่ใช่พารามิเตอร์ส่วนใหญ่ที่จะพาคุณไปที่นั่น


@Glen_b - ขอบคุณฉันได้อัปเดตคำตอบแล้ว คุณคิดว่าใจกว้างมากที่ทำเกี่ยวกับสาเหตุของความผิดพลาด!
jbowman

13

@ jbowman ให้วิธีแก้ปัญหามาตรฐาน (ดี) กับปัญหาของการประมาณซึ่งรู้จักกันในชื่อแบบจำลองความเค้น - ความเครียดθ=P(X<Y)

XY

ตามคำนิยามที่เรามี

θ=P(X<Y)=FX(y)fY(y)dy,

FXXfYYXYFXfYθ

θ^=F^X(y)f^Y(y)dy.

สิ่งนี้ถูกนำไปใช้ในรหัส R ต่อไปนี้โดยใช้เคอร์เนล Gaussian

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

θ

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

ช่วงเวลา bootstrap ประเภทอื่น ๆอาจได้รับการพิจารณาเช่นกัน


2
น่าสนใจและมีเอกสารอ้างอิงที่ดี (+1) ฉันจะเพิ่มเข้าไปในเพลงของฉัน!
jbowman

0

XiYiP(XiYi<0)=pI{XiYi<0}i=1,2,..,nXXi<Yin p=P(XiYi<0)X/n


2
พื้นฐานของการจับคู่ไมเคิลคืออะไร?
whuber

OP กล่าวว่า "ให้ X เป็นตัวแปรสุ่มสำหรับเวลาการประมวลผลหลังจากการเปลี่ยนแปลงและ Y ก่อนหน้านี้" ดังนั้น Xi คือหลังจากการแทรกแซงและ Yi อยู่ก่อน
Michael R. Chernick

m=nXiYj

1
คุณถูก. ฉันเดาว่าการทดสอบตัวอย่างสองประเภทเช่น Wilcoxon ตามที่ jbowman แนะนำไว้ข้างต้นน่าจะเหมาะสม เป็นที่น่าสนใจว่ารูปแบบ Mann-Whitney และการทดสอบนับจำนวน Xis <the Yjs
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.