ทำไม ecdf ใช้ฟังก์ชั่นขั้นตอนและไม่ใช่การแก้ไขเชิงเส้น?


13

ฟังก์ชั่น CDF เชิงประจักษ์มักจะประมาณโดยฟังก์ชั่นขั้นตอน มีเหตุผลที่ทำเช่นนี้และไม่ใช้การแก้ไขเชิงเส้นหรือไม่ ฟังก์ชันขั้นตอนมีคุณสมบัติทางทฤษฎีที่น่าสนใจซึ่งทำให้เราชอบหรือไม่

นี่คือตัวอย่างของทั้งสอง:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

ป้อนคำอธิบายรูปภาพที่นี่


ที่เกี่ยวข้อง ...................................

8
x1,x2,,xn(Ω,S,P)Ω={1,2,,n}SPXxiiX

คำตอบ:


22

มันเป็นคำจำกัดความ

(Xn)

Fe(t)=#{XnXnt}n

#

P(X=x)0x

FX(x)=pχx0+(1p)χx1
χx0(p+(1p)min(x,1))(0,p)(1,1)

ขอบคุณอเล็กซ์ มีอีกชื่อหนึ่งสำหรับฟังก์ชั่นที่ฉันเขียนหรือไม่? (เพราะฉันเดาว่ามันจะมาบรรจบกับ CDF จริง)
Tal Galili

5
@TalGalili มันไม่ได้ พิจารณาการกระจายตัวของเบอร์นูลี ecdf2 ของคุณจะไม่มาบรรจบกันในกรณีนี้ คุณสามารถเรียกมันว่า ecdf ที่ราบรื่น ผมสงสัยว่ามันจะมาบรรจบกับ CDF จริง IFF CDF จริงไม่มีจุดที่มีความน่าจะเป็นที่ไม่ใช่ศูนย์ยกเว้นจุดที่สูงที่สุด (ที่คุณไม่เรียบ)
AlexR

@AlexR คุณสามารถแก้ไขคำตอบของคุณเพื่อเพิ่มความคิดเห็นนี้ได้เนื่องจากการกระจายแบบไม่ต่อเนื่องเป็นสาเหตุของการแน่นอนดังกล่าว - ดังนั้นจึงตอบคำถาม "ทำไม"
ทิม

1
@Tim Done
AlexR

ขอบคุณ มีวิธีการกำหนดฟังก์ชั่นเชิงประจักษ์อย่างต่อเนื่องที่จะมาบรรจบกับฟังก์ชั่นขั้นตอน แต่จะเป็นเสียงเดียวอย่างเต็มที่ (เช่น: ไม่มี "กระโดด" คมใด ๆ )?
Tal Galili
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.