เงินรางวัล:
เงินรางวัลเต็มจำนวนจะมอบให้กับผู้ที่ให้การอ้างอิงถึงเอกสารเผยแพร่ใด ๆ ที่ใช้หรือกล่าวถึงตัวประมาณด้านล่าง
แรงจูงใจ:
ส่วนนี้อาจไม่สำคัญสำหรับคุณและฉันสงสัยว่ามันจะไม่ช่วยให้คุณได้รับรางวัล แต่เนื่องจากมีคนถามเกี่ยวกับแรงจูงใจนี่คือสิ่งที่ฉันกำลังทำอยู่
ฉันกำลังทำงานกับปัญหาทฤษฎีกราฟเชิงสถิติ มาตรฐานวัตถุหนาแน่นกราฟ จำกัดเป็นฟังก์ชันสมมาตรในแง่ที่ว่า ) การสุ่มตัวอย่างกราฟบนจุดยอดสามารถคิดได้ว่าเป็นการสุ่มตัวอย่างค่าเครื่องแบบในช่วงหน่วย ( สำหรับ) แล้วน่าจะเป็นของขอบนั้นเป็น ) ให้ถ้อยคำเมทริกซ์ที่เกิดจะเรียกว่า
∬ W > 0 f A f f f ∑ A W
แต่น่าเสียดายที่วิธีการที่ผมพบว่าการแสดงความสอดคล้องเมื่อเราได้ลิ้มลองจากการจัดจำหน่ายที่มีความหนาแน่นฉวิธีสร้างนั้นต้องการให้ฉันสุ่มตารางคะแนน (ตรงข้ามกับการดึงจากต้นฉบับ) ในคำถามนี้ฉันถามถึงปัญหา 1 มิติ (ง่ายกว่า) ของสิ่งที่เกิดขึ้นเมื่อเราสามารถสุ่มตัวอย่างตัวอย่างเบอร์นูลิสบนกริดแบบนี้แทนที่จะสุ่มตัวอย่างจากการแจกแจงโดยตรงA f
การอ้างอิงสำหรับขีด จำกัด กราฟ:
L. Lovasz และ B. Szegedy ข้อ จำกัด ของลำดับกราฟที่หนาแน่น ( arxiv )
C. Borgs, J. Chayes, L. Lovasz, V. Sos และ K. Vesztergombi ลำดับบรรจบกันของกราฟหนาแน่น i: ความถี่ Subgraph คุณสมบัติการวัดและการทดสอบ ( arxiv )
โน้ต:
พิจารณาการกระจายอย่างต่อเนื่องกับ CDFและ PDFซึ่งมีการสนับสนุนในเชิงบวกต่อช่วง[0,1]สมมติไม่มี pointmass,อนุพันธ์ได้ทุกที่และยังว่าเป็น supremum ของในช่วง[0,1]Letหมายความว่าตัวแปรสุ่มเป็นตัวอย่างจากการกระจายF จะ IID ตัวแปรสุ่มเครื่องแบบ[0,1]
ปัญหาการตั้งค่า:
บ่อยครั้งที่เราสามารถปล่อยให้เป็นตัวแปรสุ่มที่มีการแจกแจงและทำงานกับฟังก์ชันการแจกแจงเชิงประจักษ์ตามปกติเป็น โดยที่เป็นฟังก์ชันตัวบ่งชี้ โปรดสังเกตว่าการกระจายเชิงประจักษ์นี้เป็นแบบสุ่ม (โดยที่ได้รับการแก้ไข)
แต่น่าเสียดายที่ผมไม่สามารถที่จะวาดตัวอย่างโดยตรงจากFอย่างไรก็ตามฉันรู้ว่าได้รับการสนับสนุนเชิงบวกเฉพาะในและฉันสามารถสร้างตัวแปรสุ่มโดยที่เป็นตัวแปรสุ่มที่มีการแจกแจงเบอร์นูลลีด้วยความน่าจะเป็นที่จะประสบความสำเร็จ โดยที่และถูกกำหนดไว้ด้านบน ดังนั้น(p_i) วิธีหนึ่งที่ชัดเจนที่ฉันอาจประมาณค่าจากค่าเหล่านี้คือการใช้ อยู่ที่ไหน
คำถาม:
จาก (สิ่งที่ฉันคิดว่าควรเป็น) ง่ายที่สุดถึงยากที่สุด
ไม่มีใครรู้ว่า (หรือชื่ออื่น ๆ ที่คล้ายกัน) มีชื่อหรือไม่? คุณสามารถให้การอ้างอิงที่ฉันสามารถดูคุณสมบัติบางอย่างได้หรือไม่?
ในฐานะที่เป็นเป็นประมาณการที่สอดคล้องกันของ (และคุณสามารถพิสูจน์ได้)?
การกระจายที่ จำกัด ของเป็นคืออะไร?
เป็นการดีที่ฉันต้องการผูกต่อไปนี้เป็นฟังก์ชันของ - เช่นแต่ฉันไม่รู้ว่าความจริงคืออะไร ย่อมาจากBig O ในความน่าจะเป็น
แนวคิดและข้อสังเกตบางประการ:
นี่ดูเหมือนการสุ่มตัวอย่างการปฏิเสธการยอมรับกับการแบ่งชั้นตามกริด โปรดทราบว่าไม่ใช่เพราะเราไม่ได้ดึงตัวอย่างอื่นหากเราปฏิเสธข้อเสนอ
ฉันค่อนข้างแน่ใจว่านี้มีอคติแล้ว ฉันคิดว่าทางเลือก ไม่มีอคติ แต่มีคุณสมบัติที่ไม่พึงประสงค์<1
ฉันสนใจในการใช้เป็นplug-in ที่ประมาณการ ฉันไม่คิดว่านี่เป็นข้อมูลที่มีประโยชน์ แต่บางทีคุณอาจรู้เหตุผลว่าทำไมมันถึงเป็นเช่นนั้น
ตัวอย่างใน R
นี่คือบางส่วนรหัส R ถ้าคุณต้องการที่จะเปรียบเทียบการกระจายเชิงประจักษ์กับ\ขออภัยการเยื้องบางอย่างผิดปกติ ... ฉันไม่เห็นวิธีการแก้ไข
# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)
# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
u <- sort(runif(n))
x <- qD(u) # samples for empirical dist
z <- 0 # keep track of how many y_i == 1
# take bernoulli samples at the points s
s <- seq(0,1-1/n,length=n) + runif(n,0,1/n)
p <- dD(s) # density at s
while(z == 0){ # make sure we get at least one y_i == 1
y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
z <- sum(y)
}
result <- list(x=x, y=y, z=z)
return(result)
}
sim <- function(simdat, n, w){
# F hat -- empirical dist at w
fh <- mean(simdat$x < w)
# F tilde
ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
# Uncomment this if we want an unbiased estimate.
# This can take on values > 1 which is undesirable for a cdf.
### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
return(c(fh, ft))
}
set.seed(1) # for reproducibility
n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))
# compare the true value to the empirical means
pD(w) # the truth
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var) # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth
# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
rep(seq(0,1,length=n+1),each=2),
col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
rep(seq(0,1,length=dat$z+1),each=2),
col="blue")
การแก้ไข:
แก้ไข 1 -
ฉันแก้ไขสิ่งนี้เพื่อแก้ไขความคิดเห็นของ @ whuber
แก้ไข 2 -
ฉันเพิ่มรหัส R และทำความสะอาดอีกเล็กน้อย ฉันเปลี่ยนสัญกรณ์เล็กน้อยเพื่อให้อ่านได้ แต่โดยพื้นฐานแล้วมันก็เหมือนกัน ฉันวางแผนที่จะรับรางวัลนี้ทันทีที่ฉันได้รับอนุญาตดังนั้นโปรดแจ้งให้เราทราบหากคุณต้องการคำชี้แจงเพิ่มเติม
แก้ไข 3 -
ฉันคิดว่าฉันพูดถึงคำพูดของ @ cardinal ฉันแก้ไขความผิดพลาดในการเปลี่ยนแปลงทั้งหมด ฉันกำลังเพิ่มรางวัล
แก้ไข 4 -
เพิ่มส่วน "แรงจูงใจ" สำหรับ @cardinal