Почему в ecdf используется пошаговая функция, а не линейная интерполяция?


13

Эмпирические функции CDF обычно оцениваются пошаговой функцией. Есть ли причина, почему это делается таким образом, а не с помощью линейной интерполяции? Есть ли у функции шага какие-нибудь интересные теоретические свойства, которые заставляют нас предпочитать ее?

Вот пример из двух:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

введите описание изображения здесь


Связанный ...................................

8
«... оценивается по шаговой функции» противоречит тонкому заблуждению: ECDF не просто оценивается по шаговой функции; то есть такая функция по определению. Он идентичен CDF случайной величины. В частности, для любой конечной последовательности чисел определите пространство вероятностей с , дискретный и равномерный. Пусть случайная величина , назначая к . ECDF является CDF из .x1,x2,,xn(Ω,S,P)Ω={1,2,,n}SPXxiiXЭто огромное концептуальное упрощение является убедительным аргументом для определения.
whuber

Ответы:


22

Это по определению.

Эмпирическая функция распределения набора наблюдений определяется как(Xn)

Fe(t)=#{XnXnt}n

Где - установленное количество элементов. По своей природе это ступенчатая функция. Это сходится к фактическому CDF почти наверняка .#

Также обратите внимание, что для любого распределения с по крайней мере для двух (особенно невырожденных дискретных распределений) ваш вариант ECDF не сходится к фактическому CDF. Например, рассмотрим распределение Бернулли с CDFP(X=x)0x

FX(x)=pχx0+(1p)χx1
это пошаговая функция, тогда как ecdf2 будет сходиться к (кусочно-линейная функция, соединяющая и .χx0(p+(1p)min(x,1))( 1 , 1 )(0,p)(1,1)

Спасибо, Алекс. Так есть ли другое название для функции, которую я написал? (потому что я предполагаю, что это также сходится к фактическому CDF)
Тал Галили

5
@ TalGalili Это не так. Рассмотрим распределение Бернулли. Ваш ecdf2 не будет сходиться в этом случае. Вы могли бы назвать это сглаженным ecdf. Я подозреваю, что он сойдется с фактическим CDF, если у фактического CDF нет точек с ненулевой вероятностью, кроме крайних точек (где вы не сглаживаете)
AlexR

@AlexR Вы можете отредактировать свой ответ, чтобы добавить этот комментарий, поскольку причиной такого определения являются дискретные распределения, поэтому он отвечает на вопрос «почему».
Тим

1
@ Время закончено.
AlexR

Благодарю. Есть ли способ определить непрерывную эмпирическую функцию, которая бы сходилась с функцией шага, но была бы полностью монотонной (т.е. без каких-либо резких «скачков»)?
Тал Галили
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.