ทำไม ecdf ใช้ฟังก์ชั่นขั้นตอนและไม่ใช่การแก้ไขเชิงเส้น?

ฟังก์ชั่น CDF เชิงประจักษ์มักจะประมาณโดยฟังก์ชั่นขั้นตอน มีเหตุผลที่ทำเช่นนี้และไม่ใช้การแก้ไขเชิงเส้นหรือไม่ ฟังก์ชันขั้นตอนมีคุณสมบัติทางทฤษฎีที่น่าสนใจซึ่งทำให้เราชอบหรือไม่

นี่คือตัวอย่างของทั้งสอง:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

r distributions ecdf

— Tal Galili
แหล่งที่มา

ที่เกี่ยวข้อง ...................................

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \ldots, x_n$

(Ω, S, P)

$(\Omega,\mathfrak{S},\mathbb{P})$

Ω = {1, 2, \dots, n}

$\Omega=\{1,2,\ldots, n\}$

S

$\mathfrak{S}$

P

$\mathbb{P}$

X

$X$

x_{i}

$x_i$

i

$i$ $X$

มันเป็นคำจำกัดความ

$(X_n)$

F_{e} (t) = \frac{# {X_{n} ∣ X_{n} \leq t}}{n}

$F_e(t) = \frac{\#\{X_n \mid X_n \le t\}}n$

$\#$

$P(X = x) \ne 0$ $x$

F_{X} (x) = p χ_{x \geq 0} + (1 - p) χ_{x \geq 1}

$F_X(x) = p \chi_{x \ge 0} + (1-p) \chi_{x \ge 1}$

χ_{x \geq 0} \cdot (p + (1 - p) min (x, 1))

$\chi_{x\ge 0} \cdot (p + (1-p)\min(x, 1))$

(0, p)

$(0,p)$

(1, 1)

$(1,1)$

— AlexR
แหล่งที่มา

ขอบคุณอเล็กซ์ มีอีกชื่อหนึ่งสำหรับฟังก์ชั่นที่ฉันเขียนหรือไม่? (เพราะฉันเดาว่ามันจะมาบรรจบกับ CDF จริง)

— Tal Galili

@TalGalili มันไม่ได้ พิจารณาการกระจายตัวของเบอร์นูลี ecdf2 ของคุณจะไม่มาบรรจบกันในกรณีนี้ คุณสามารถเรียกมันว่า ecdf ที่ราบรื่น ผมสงสัยว่ามันจะมาบรรจบกับ CDF จริง IFF CDF จริงไม่มีจุดที่มีความน่าจะเป็นที่ไม่ใช่ศูนย์ยกเว้นจุดที่สูงที่สุด (ที่คุณไม่เรียบ)

— AlexR

@AlexR คุณสามารถแก้ไขคำตอบของคุณเพื่อเพิ่มความคิดเห็นนี้ได้เนื่องจากการกระจายแบบไม่ต่อเนื่องเป็นสาเหตุของการแน่นอนดังกล่าว - ดังนั้นจึงตอบคำถาม "ทำไม"

— ทิม

@Tim Done

${}{}$

— AlexR

ขอบคุณ มีวิธีการกำหนดฟังก์ชั่นเชิงประจักษ์อย่างต่อเนื่องที่จะมาบรรจบกับฟังก์ชั่นขั้นตอน แต่จะเป็นเสียงเดียวอย่างเต็มที่ (เช่น: ไม่มี "กระโดด" คมใด ๆ )?

— Tal Galili