ทางเลือกการกระจายเชิงประจักษ์


13

เงินรางวัล:

เงินรางวัลเต็มจำนวนจะมอบให้กับผู้ที่ให้การอ้างอิงถึงเอกสารเผยแพร่ใด ๆ ที่ใช้หรือกล่าวถึงตัวประมาณF~ด้านล่าง

แรงจูงใจ:

ส่วนนี้อาจไม่สำคัญสำหรับคุณและฉันสงสัยว่ามันจะไม่ช่วยให้คุณได้รับรางวัล แต่เนื่องจากมีคนถามเกี่ยวกับแรงจูงใจนี่คือสิ่งที่ฉันกำลังทำอยู่

ฉันกำลังทำงานกับปัญหาทฤษฎีกราฟเชิงสถิติ มาตรฐานวัตถุหนาแน่นกราฟ จำกัดW:[0,1]2[0,1]เป็นฟังก์ชันสมมาตรในแง่ที่ว่าW(u,v)=W(v,u) ) การสุ่มตัวอย่างกราฟบนnจุดยอดสามารถคิดได้ว่าเป็นการสุ่มตัวอย่างnค่าเครื่องแบบในช่วงหน่วย ( Uiสำหรับi=1,,n) แล้วน่าจะเป็นของขอบนั้น(i,j)เป็นW(Ui,Uj) ) ให้ถ้อยคำเมทริกซ์ที่เกิดจะเรียกว่าA

WW > 0 f A f f f A Wf=W/WW>0fAfffAW

แต่น่าเสียดายที่วิธีการที่ผมพบว่าการแสดงความสอดคล้องเมื่อเราได้ลิ้มลองจากการจัดจำหน่ายที่มีความหนาแน่นฉวิธีสร้างนั้นต้องการให้ฉันสุ่มตารางคะแนน (ตรงข้ามกับการดึงจากต้นฉบับ) ในคำถามนี้ฉันถามถึงปัญหา 1 มิติ (ง่ายกว่า) ของสิ่งที่เกิดขึ้นเมื่อเราสามารถสุ่มตัวอย่างตัวอย่างเบอร์นูลิสบนกริดแบบนี้แทนที่จะสุ่มตัวอย่างจากการแจกแจงโดยตรงA ffAf

การอ้างอิงสำหรับขีด จำกัด กราฟ:

L. Lovasz และ B. Szegedy ข้อ จำกัด ของลำดับกราฟที่หนาแน่น ( arxiv )

C. Borgs, J. Chayes, L. Lovasz, V. Sos และ K. Vesztergombi ลำดับบรรจบกันของกราฟหนาแน่น i: ความถี่ Subgraph คุณสมบัติการวัดและการทดสอบ ( arxiv )

โน้ต:

พิจารณาการกระจายอย่างต่อเนื่องกับ CDFและ PDFซึ่งมีการสนับสนุนในเชิงบวกต่อช่วง[0,1]สมมติไม่มี pointmass,อนุพันธ์ได้ทุกที่และยังว่าเป็น supremum ของในช่วง[0,1]Letหมายความว่าตัวแปรสุ่มเป็นตัวอย่างจากการกระจายF จะ IID ตัวแปรสุ่มเครื่องแบบ[0,1]Ff[0,1]fFsupz[0,1]f(z)=c<f[0,1]XFXFUi[0,1]

ปัญหาการตั้งค่า:

บ่อยครั้งที่เราสามารถปล่อยให้เป็นตัวแปรสุ่มที่มีการแจกแจงและทำงานกับฟังก์ชันการแจกแจงเชิงประจักษ์ตามปกติเป็น โดยที่เป็นฟังก์ชันตัวบ่งชี้ โปรดสังเกตว่าการกระจายเชิงประจักษ์นี้เป็นแบบสุ่ม (โดยที่ได้รับการแก้ไข)X1,,XnF

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

แต่น่าเสียดายที่ผมไม่สามารถที่จะวาดตัวอย่างโดยตรงจากFอย่างไรก็ตามฉันรู้ว่าได้รับการสนับสนุนเชิงบวกเฉพาะในและฉันสามารถสร้างตัวแปรสุ่มโดยที่เป็นตัวแปรสุ่มที่มีการแจกแจงเบอร์นูลลีด้วยความน่าจะเป็นที่จะประสบความสำเร็จ โดยที่และถูกกำหนดไว้ด้านบน ดังนั้น(p_i) วิธีหนึ่งที่ชัดเจนที่ฉันอาจประมาณค่าจากค่าเหล่านี้คือการใช้ อยู่ที่ไหนFf[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cUiYiBern(pi)FYi
F~n(t)=1i=1nYii=1tnYi
เป็นฟังก์ชันเพดาน (นั่นคือแค่ปัดเศษให้เป็นจำนวนเต็มที่ใกล้เคียงที่สุด) และวาดใหม่ถ้า (เพื่อหลีกเลี่ยงการหารด้วยศูนย์และทำให้จักรวาลล่มสลาย) . โปรดทราบว่าเป็นตัวแปรสุ่มเนื่องจากเป็นตัวแปรสุ่มi=1nYi=0F~(t)Yi

คำถาม:

จาก (สิ่งที่ฉันคิดว่าควรเป็น) ง่ายที่สุดถึงยากที่สุด

  1. ไม่มีใครรู้ว่า (หรือชื่ออื่น ๆ ที่คล้ายกัน) มีชื่อหรือไม่? คุณสามารถให้การอ้างอิงที่ฉันสามารถดูคุณสมบัติบางอย่างได้หรือไม่?F~n

  2. ในฐานะที่เป็นเป็นประมาณการที่สอดคล้องกันของ (และคุณสามารถพิสูจน์ได้)?nF~n(t)F(t)

  3. การกระจายที่ จำกัด ของเป็นคืออะไร?F~n(t)n

  4. เป็นการดีที่ฉันต้องการผูกต่อไปนี้เป็นฟังก์ชันของ - เช่นแต่ฉันไม่รู้ว่าความจริงคืออะไร ย่อมาจากBig O ในความน่าจะเป็นnOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

แนวคิดและข้อสังเกตบางประการ:

  1. นี่ดูเหมือนการสุ่มตัวอย่างการปฏิเสธการยอมรับกับการแบ่งชั้นตามกริด โปรดทราบว่าไม่ใช่เพราะเราไม่ได้ดึงตัวอย่างอื่นหากเราปฏิเสธข้อเสนอ

  2. ฉันค่อนข้างแน่ใจว่านี้มีอคติแล้ว ฉันคิดว่าทางเลือก ไม่มีอคติ แต่มีคุณสมบัติที่ไม่พึงประสงค์<1F~n

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. ฉันสนใจในการใช้เป็นplug-in ที่ประมาณการ ฉันไม่คิดว่านี่เป็นข้อมูลที่มีประโยชน์ แต่บางทีคุณอาจรู้เหตุผลว่าทำไมมันถึงเป็นเช่นนั้นF~n

ตัวอย่างใน R

นี่คือบางส่วนรหัส R ถ้าคุณต้องการที่จะเปรียบเทียบการกระจายเชิงประจักษ์กับ\ขออภัยการเยื้องบางอย่างผิดปกติ ... ฉันไม่เห็นวิธีการแก้ไขF~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

เอาท์พุทจากข้อมูลข้างต้น

การแก้ไข:

แก้ไข 1 -

ฉันแก้ไขสิ่งนี้เพื่อแก้ไขความคิดเห็นของ @ whuber

แก้ไข 2 -

ฉันเพิ่มรหัส R และทำความสะอาดอีกเล็กน้อย ฉันเปลี่ยนสัญกรณ์เล็กน้อยเพื่อให้อ่านได้ แต่โดยพื้นฐานแล้วมันก็เหมือนกัน ฉันวางแผนที่จะรับรางวัลนี้ทันทีที่ฉันได้รับอนุญาตดังนั้นโปรดแจ้งให้เราทราบหากคุณต้องการคำชี้แจงเพิ่มเติม

แก้ไข 3 -

ฉันคิดว่าฉันพูดถึงคำพูดของ @ cardinal ฉันแก้ไขความผิดพลาดในการเปลี่ยนแปลงทั้งหมด ฉันกำลังเพิ่มรางวัล

แก้ไข 4 -

เพิ่มส่วน "แรงจูงใจ" สำหรับ @cardinal


1
คำถามของคุณเริ่มคลุมเครือเมื่อคุณอ้างถึงวัตถุที่ไม่ได้กำหนดและใช้สัญกรณ์ที่แปลกประหลาด ยกตัวอย่างเช่นปรากฏ แต่เนิ่นๆ แต่ไม่มีการเชื่อมต่อที่ชัดเจนกับและมันเป็นเพียงการอ่านมากขึ้นเท่านั้นที่เราเรียนรู้ว่าคุณคิดว่ามันเป็น "ไม่ใช่การกระจายแบบไม่ต่อเนื่อง" - แต่มันเป็นวัตถุชนิดใด ที่สำคัญ "หมายถึงอะไร" "มักจะหมายถึงsupremumแต่บางทีมันอาจจะเกี่ยวข้องกับการสนับสนุนที่สำคัญของการแจกแจงเพราะทุกอย่างในคำถามขึ้นอยู่กับความหมายเหล่านี้ฉันไม่เข้าใจ ของคำถามfFsupzf(z)sup
whuber

1
ขอบคุณ @whuber สำหรับความคิดเห็นของคุณ โปรดแจ้งให้เราทราบหากคำถามที่แก้ไขนั้นยังคงทำให้เกิดความสับสน
user1448319

1
Aha! นั่นเป็นข้อบ่งชี้แรกที่ฉันได้เห็นว่าไม่ได้รับการแก้ไขและคุณมีความสนใจในเส้นกำกับ หากเป็นเรื่องจริงที่คุณมีความยืดหยุ่นในการเลือกนั่นจะไม่เปิดโอกาสมากมายเช่นการปรับตัวของจุดตัวอย่าง (แทนที่จะ จำกัด เฉพาะกริดคงที่ )? นอกจากนี้ยังเห็นได้ชัดคุณกำลังทำสมมติฐานอันเป็นเช่นว่าอย่างต่อเนื่อง (เท่าเป็นอย่างต่อเนื่องอย่างแน่นอน ) มีอะไรอีกที่คุณคิดได้เกี่ยวกับการแจกแจงพื้นฐานที่สามารถช่วยในการวิเคราะห์นี้ nn{i/n}fFF
whuber

2
คำถาม / ข้อสังเกตอื่น ๆ สองสามข้อ: ดูเหมือนว่าโดยปริยายตามวิธีที่คุณเสนอเพื่อสร้างว่าคุณกำลังพิจารณาอาร์เรย์สามเหลี่ยมจริง ,เพื่อการวิเคราะห์คอนเวอร์เจนซ์ จากวิธีที่คุณสร้างดูเหมือนว่าคุณควรจะสามารถสุ่มตัวอย่างตัวแปรสุ่มของ Bernoulli ด้วยความน่าจะเป็นเงื่อนไขของความสำเร็จโดยที่เป็นตัวแปรสุ่มแบบสม่ำเสมอ มันเป็นเรื่องจริงเหรอ? (บริบทเพิ่มเติมเล็กน้อยสำหรับคำถามของคุณน่าจะแก้ไขคำถามเหล่านี้ได้จำนวนมาก) ไชโย piYi,ni=1,,npif(U)/cU
พระคาร์ดินัล

2
คำถามนี้ได้รับการปรับปรุงมากฉันไม่ได้จำจนกว่าฉันจะรู้ว่าฉันเห็นความคิดเห็นก่อน ตอนนี้มันเป็นคำถามที่น่าสนใจและเป็นที่นิยมมากขึ้น
Glen_b -Reinstate Monica

คำตอบ:


1

ในขณะที่การอ้างอิงนี้

แก้ไข: เพิ่มการอ้างอิงถึงสถิติที่คล้ายคลึงกันมาก"การประเมินแบบไม่อิง พารามิเตอร์จากการสังเกตที่ไม่สมบูรณ์" EL Kaplan และ Paul Meier, วารสารสมาคมสถิติอเมริกัน, ฉบับที่ 53 หมายเลข 282 (มิ.ย. 1958) หน้า 457-481

ไม่ใช่ตัวประมาณคล้าย ECDF ของคุณในฉันเชื่อว่ามันเทียบเท่ากับตัวประมาณ Kaplan-Meier (หรือตัวประมาณค่า จำกัด ผลิตภัณฑ์) ที่ใช้ในการวิเคราะห์การเอาตัวรอดแม้ว่าจะใช้กับช่วงเวลาinfty)[0,1][0,)

การประมาณค่าไบแอสจะเป็นไปได้เมื่อคุณมีการประเมินที่สมเหตุสมผลของการกระจายผ่านเคอร์เนลที่ปรับให้เรียบถ้ามันมีพฤติกรรมที่ดีพอ (ดูเช่นการแปลง Khmaladzeบน Wikipedia)

ในกรณีที่สองตัวแปรในปัญหาของคุณกราฟประมาณจากแม้จะมีข้อ จำกัด สมมาตรเล็กน้อยดูเหมือนคล้ายกับวิธีการใน Jean-เดวิด Fermanian ดาร์ Radulovic และมอร์เทน Wegkamp (2004) ที่บรรจบกันที่อ่อนแอของการเชื่อมเชิงประจักษ์ กระบวนการ , Bernoulliฉบับ หมายเลข 10 5, 847–860 ตามที่ @ cardinal ระบุว่า "วิธีการหลายตัวแปรเดลต้า"f=W/WA


0

คำตอบนี้ตอบคำถาม 2 และ 3 ด้านบน ฉันยังต้องการการอ้างอิงจริงๆ(จากคำถาม 1)

นี้ยังไม่ได้นำเข้าบัญชีเมื่อ0Yi=0

พิจารณาจากนั้น โดยที่ตัวห้อยหมายถึงอนุพันธ์ จำ C ปล่อย ดังนั้นโปรดทราบว่า และ(t) นอกจากนี้ g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t)
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
โปรดทราบว่า โดยอิสระของ s Cov(R,S)=0Yi

ตอนนี้เราใช้การขยายเทย์เลอร์เพื่อรับ

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
โดยที่ โดยเฉพาะเราได้รับ
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

โปรดแสดงความคิดเห็นหากคุณเห็นบางสิ่งผิดปกติ

การแก้ไข:

แก้ไข 1 -

คงพิมพ์ผิดใน(t)} ขอบคุณ @cardinal สำหรับคำแนะนำของคุณในความคิดเห็นเกี่ยวกับคำถาม 4VF(t)

แก้ไข 2 -

แก้ไขความผิดพลาดมากมาย: ฉันมีที่ฉันควรมีในหลายแห่ง ฉันยังคงต้องไปยังที่อยู่ @ ตอบสนองพระคาร์ดินัลเกี่ยวกับ0c1cYi=0


1
เรียน @ ผู้ใช้: นี่คือเส้นทางที่ถูกต้อง; นี่คือคำแนะนำบางอย่าง ( 1 ) ค่าเฉลี่ยของไม่มีอยู่อย่างน้อยก็จนกว่าคุณจะระบุสิ่งที่เกิดขึ้นเมื่อดังนั้นการพูดอย่างวิเคราะห์ในคำตอบนั้นไม่ถูกต้อง การกำหนดพฤติกรรมที่ศูนย์จะทำลายโครงสร้างความเป็นอิสระ แต่ไม่ได้หายไปทั้งหมด ( 2 ) เป็นหลักสิ่งที่คุณกำลังทำคือการใช้วิธีการหลายตัวแปรเดลต้า โปรดทราบว่าสิ่งนี้ไม่จำเป็นต้องมีค่าเฉลี่ยของดังนั้นมันจะสะอาดขึ้น (และถูกต้องมากขึ้น) ถ้าคุณไปเส้นทางนี้ F~n(t)iYi=0F~n(t)
พระคาร์ดินัล

2
( 3 ) รายการ 4 ในรายการของคุณได้รับการจัดการดังนี้ โปรดทราบว่าเทอมแรกทางด้านขวาคือจึงเห็นได้ชัดว่า1/2}) คุณกำลังเหลือเพียงที่จะจัดการกับระยะกลาง แต่ที่ต้องมาทนทุกข์พร้อมที่จะให้ความไม่เท่าเทียมกันของมาร์คอฟตามด้วยเซ่นและยังเป็น1/2})
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
{iYi>0}|1cn1iYi|Op(n1/2)Op(n1/2)
พระคาร์ดินัล

เรียน @user: มันจะเป็นประโยชน์ที่จะเห็นบางรายละเอียดมากขึ้นในการพูดของคุณเกี่ยวกับไม่จำเป็นต้องพิจารณากรณีที่0 สิ่งที่คุณอธิบายคือการสุ่มตัวอย่างแบบมีเงื่อนไข เงื่อนไขในมีความไม่เป็นอิสระ (หรืออิสระตามเงื่อนไข) ดังนั้น (โดยปริยาย) การวิเคราะห์ในคำตอบไม่ได้ถือ มันอาจจะเป็นประโยชน์ที่จะดูที่กรณีที่เห็นนี้ (เพียงวาดตาราง) iYi=0Yi{iYi>0}n=22×2
พระคาร์ดินัล

นอกเหนือไปจากนี้อาจคุ้มค่าที่จะสังเกตว่าดังนั้นนิยามนี้สามารถทำให้ง่ายขึ้น supCC|F~F|=01|F~F|
พระคาร์ดินัล
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.