Почему в ecdf используется пошаговая функция, а не линейная интерполяция?

Эмпирические функции CDF обычно оцениваются пошаговой функцией. Есть ли причина, почему это делается таким образом, а не с помощью линейной интерполяции? Есть ли у функции шага какие-нибудь интересные теоретические свойства, которые заставляют нас предпочитать ее?

Вот пример из двух:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

r distributions ecdf

— Таль Галили
источник

Связанный ...................................

«... оценивается по шаговой функции» противоречит тонкому заблуждению: ECDF не просто оценивается по шаговой функции; то есть такая функция по определению. Он идентичен CDF случайной величины. В частности, для любой конечной последовательности чисел определите пространство вероятностей с , дискретный и равномерный. Пусть случайная величина , назначая к . ECDF является CDF из .

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \ldots, x_n$

(Ω, S, P)

$(\Omega,\mathfrak{S},\mathbb{P})$

Ω = {1, 2, \dots, n}

$\Omega=\{1,2,\ldots, n\}$

S

$\mathfrak{S}$

P

$\mathbb{P}$

X

$X$

x_{i}

$x_i$

i

$i$ $X$ Это огромное концептуальное упрощение является убедительным аргументом для определения.

— whuber

Это по определению.

Эмпирическая функция распределения набора наблюдений определяется как $(X_n)$

F_{e} (t) = \frac{# {X_{n} ∣ X_{n} \leq t}}{n}

$F_e(t) = \frac{\#\{X_n \mid X_n \le t\}}n$

Где - установленное количество элементов. По своей природе это ступенчатая функция. Это сходится к фактическому CDF почти наверняка . $\#$

Также обратите внимание, что для любого распределения с по крайней мере для двух (особенно невырожденных дискретных распределений) ваш вариант ECDF не сходится к фактическому CDF. Например, рассмотрим распределение Бернулли с CDF $P(X = x) \ne 0$ $x$

F_{X} (x) = p χ_{x \geq 0} + (1 - p) χ_{x \geq 1}

$F_X(x) = p \chi_{x \ge 0} + (1-p) \chi_{x \ge 1}$ это пошаговая функция, тогда как ecdf2 будет сходиться к (кусочно-линейная функция, соединяющая и .

χ_{x \geq 0} \cdot (p + (1 - p) min (x, 1))

$\chi_{x\ge 0} \cdot (p + (1-p)\min(x, 1))$

(0, p)

$(0,p)$

(1, 1)

$(1,1)$

— AlexR
источник

Спасибо, Алекс. Так есть ли другое название для функции, которую я написал? (потому что я предполагаю, что это также сходится к фактическому CDF)

— Тал Галили

@ TalGalili Это не так. Рассмотрим распределение Бернулли. Ваш ecdf2 не будет сходиться в этом случае. Вы могли бы назвать это сглаженным ecdf. Я подозреваю, что он сойдется с фактическим CDF, если у фактического CDF нет точек с ненулевой вероятностью, кроме крайних точек (где вы не сглаживаете)

— AlexR

@AlexR Вы можете отредактировать свой ответ, чтобы добавить этот комментарий, поскольку причиной такого определения являются дискретные распределения, поэтому он отвечает на вопрос «почему».

— Тим

@ Время закончено.

${}{}$

— AlexR

Благодарю. Есть ли способ определить непрерывную эмпирическую функцию, которая бы сходилась с функцией шага, но была бы полностью монотонной (т.е. без каких-либо резких «скачков»)?

— Тал Галили