Тест на конечную дисперсию?


29

Можно ли проверить на конечность (или существование) дисперсии случайной величины для данной выборки? Как ноль, либо {дисперсия существует и является конечной}, либо {дисперсия не существует / бесконечна} будет приемлемым. С философской точки зрения (и в вычислительном отношении) это кажется очень странным, потому что не должно быть никакой разницы между населением без конечной дисперсии и населением с очень очень большой дисперсией (скажем,> ), поэтому я не надеюсь, что эта проблема может быть решена.10400

Один из подходов, который был мне предложен, был через Центральную предельную теорему: предполагая, что выборки являются идентичными, а совокупность имеет конечное среднее, можно каким-то образом проверить, имеет ли среднее значение выборки правильную стандартную ошибку с увеличением размера выборки. Я не уверен, что верю, что этот метод сработает. (В частности, я не вижу, как сделать это в надлежащем тесте.)


1
Релевантно: stats.stackexchange.com/questions/94402/… Если есть малейшая вероятность, что дисперсия не существует, лучше использовать модель, которая не предполагает конечную дисперсию. Даже не думай о тестировании.
kjetil b halvorsen

Ответы:


13

Нет, это невозможно, потому что конечная выборка размера N не может надежно различить, скажем, нормальную популяцию и нормальную популяцию, загрязненную величиной распределения Коши, где >> . (Конечно, первая имеет конечную дисперсию, а вторая имеет бесконечную дисперсию.) Таким образом, любой полностью непараметрический тест будет иметь произвольно низкую мощность по отношению к таким альтернативам.1/NNN


4
Это очень хороший момент. однако, разве большинство тестов гипотез не имеют сколь угодно низкой мощности против какой-либо альтернативы? например, тест для нулевого среднего значения будет иметь очень низкую мощность, если будет взят образец из популяции со средним значением длямаленький. Я все еще задаюсь вопросом, может ли такой тест вообще быть разумно сконструирован, тем более, если в некоторых случаях он имеет низкую мощность. ε0<|ε|
Шаббычеф

2
Кроме того, «загрязненные» распределения, подобные тем, которые вы цитируете, всегда казались мне противоречащими идее «идентичного распределения». Возможно, вы согласитесь. Кажется, что говорить, что выборки взяты из некоторого дистрибутива без указания того, что распределение бессмысленно (ну, «независимая» часть iid имеет смысл).
Шаббычеф

2
(1) Вы правы насчет малой мощности, но проблема здесь (мне кажется) состоит в том, что нет постепенного перехода от «конечного» к «бесконечному»: проблема, кажется, не имеет естественного масштаба, чтобы сказать нам что составляет «маленький» уход от нуля по сравнению с «большим» уходом. (2) Форма распределения не зависит от соображений iid. Я не имею в виду, что, скажем, 1% данных поступит с Коши, а 99% с нормального. Я имею в виду, что 100% данных поступают из распределения, которое является почти нормальным, но имеет хвосты Коши. В этом смысле данные могут быть получены для загрязненного распределения.
whuber

2
Кто-нибудь читал эту статью? sciencedirect.com/science/article/pii/S0304407615002596
Кристоф Ханк,

3
@shabbychef, если каждое наблюдение происходит из одного и того же процесса смешивания, они одинаково распределены, каждое из которых является извлечением из соответствующего распределения смеси. Если некоторые наблюдения обязательно происходят из одного процесса, а другие обязательно из другого процесса (наблюдения с 1 по 990 нормальны, а наблюдения с 991 по 1000, скажем, Коши), то они не распределены одинаково (даже если объединенная выборка может быть неразличимой из смеси 99% -1%). По сути, это сводится к модели процесса, который вы используете.
Glen_b

16

Вы не можете быть уверены, не зная распределения. Но есть определенные вещи, которые вы можете сделать, например, посмотреть на то, что можно назвать «частичной дисперсией», то есть, если у вас есть выборка размера , вы рисуете дисперсию, оцененную по первым n терминам, где n работает от 2 до N .NnnN

С конечной дисперсией совокупности вы надеетесь, что частичная дисперсия скоро установится близко к дисперсии совокупности.

С бесконечной дисперсией совокупности вы видите скачки в частичной дисперсии, сопровождаемые медленным спадом, пока в выборке не появится следующее очень большое значение.

Это иллюстрация со случайными переменными Normal и Коши (и логарифмическим масштабом) Частичная дисперсия

Это может не помочь, если форма вашего распределения такова, что для идентификации с достаточной достоверностью необходим гораздо больший размер выборки, чем у вас, т. Е. Когда очень большие значения достаточно (но не очень) редки для распределения с конечной дисперсией, или крайне редки для распределения с бесконечной дисперсией. Для данного распределения будут размеры выборки, которые, скорее всего, не раскрывают ее природу; и наоборот, для данного размера выборки существуют распределения, которые с большей вероятностью не маскируют свою природу для этого размера выборки.


4
+1 Мне это нравится, потому что (а) графика обычно показывает гораздо больше, чем тест, и (б) она практична. Я немного обеспокоен тем, что это имеет произвольный аспект: его внешний вид будет зависеть (возможно, сильно) от порядка, в котором предоставляются данные. Когда «частичная дисперсия» обусловлена ​​одним или двумя экстремальными значениями, и они приближаются к началу, этот рисунок может быть обманчивым. Интересно, есть ли хорошее решение этой проблемы?
whuber

1
+1 за отличную графику. Действительно укрепляет понятие «нет дисперсии» в распределении Коши. @whuber: Сортировка данных по всем возможным перестановкам, запуск теста для каждого и взятие какого-то среднего? Не очень вычислительно эффективен, я вам предоставлю :) но, может быть, вы могли бы просто выбрать несколько случайных перестановок?
naught101

2
@ naught101 Усреднение по всем перестановкам ничего вам не скажет, потому что вы получите идеально горизонтальную линию. Возможно, я неправильно понимаю, что вы имеете в виду?
whuber

1
@whuber: На самом деле я имел в виду брать среднее значение какого-то теста на сходимость, а не сам график. Но я допускаю, что это довольно расплывчатая идея, и это во многом потому, что я понятия не имею, о чем говорю :)
naught101

7

Вот еще один ответ. Предположим, вы можете параметризовать проблему примерно так:

H0: Xt(df=3) versus H1: Xt(df=1).

Тогда вы могли бы сделать обычный тест отношения правдоподобия Неймана-Пирсона против H 1 . Обратите внимание, что H 1 - это Коши (бесконечная дисперсия), а H 0 - обычная t Стьюдента с 3 степенями свободы (конечная дисперсия), которая имеет PDF: f ( x | ν ) = Γ ( ν + 1H0H1H1H0 t

f(x|ν)=Γ(ν+12)νπΓ(ν2)(1+x2ν)ν+12,

для . Для данных простой случайной выборки x 1 , x 2 , , x n , тест отношения правдоподобия отклоняет H 0, когда Λ ( x ) = n i = 1 f ( x i | ν = 1 )<x<x1,x2,,xnH0 гдеK0выбрано такчто Р(Λ(Х)>к

Λ(x)=i=1nf(xi|ν=1)i=1nf(xi|ν=3)>k,
k0
P(Λ(X)>k|ν=3)=α.

Это немного алгебры, чтобы упростить

Λ(x)=(32)ni=1n(1+xi2/3)21+xi2,

Итак, опять же, мы получаем простую случайную выборку, вычисляем и отклоняем H 0, если Λ ( x ) слишком велико. Насколько велик? Это забавная часть! Будет трудно (невозможно?) Получить замкнутую форму для критического значения, но мы можем наверняка приблизиться к ней настолько близко, насколько захотим. Вот один из способов сделать это с R. Предположим, α = 0,05 , а для смеха, скажем, n = 13 .Λ(x)H0Λ(x)α=0.05n=13

Мы генерируем группу выборок при , вычисляем Λ для каждого образца, а затем находим 95-й квантиль.H0Λ

set.seed(1)
x <- matrix(rt(1000000*13, df = 3), ncol = 13)
y <- apply(x, 1, function(z) prod((1 + z^2/3)^2)/prod(1 + z^2))
quantile(y, probs = 0.95)

На моей машине это получается (через несколько секунд) , что после умножения на ( 12.8842 являетсяк1,9859. Конечно, есть и другие, лучшие способы приблизиться к этому, но мы просто играем вокруг.(3/2)13k1.9859

H0H1α

Отказ от ответственности: это игрушечный пример. У меня нет ни одной реальной ситуации, в которой мне было бы любопытно узнать, поступили ли мои данные с Коши, в отличие от данных Стьюдента с 3 df. И оригинальный вопрос ничего не говорил о параметризованных проблемах, он, похоже, искал больше непараметрического подхода, который, я думаю, был хорошо решен другими. Цель этого ответа - для будущих читателей, которые натыкаются на заголовок вопроса и ищут классический пыльный подход учебника.

H1:ν1


2
α

1
H1:ν2ν>2

2
α

1
αα=2

6

DY1,Y2,,YN

  1. H0:YiNormal(μ,σ)
  2. HA:YiCauchy(ν,τ)

Одна гипотеза имеет конечную дисперсию, другая имеет бесконечную дисперсию. Просто рассчитайте шансы:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)P(D,μ,σ|H0,I)dμdσP(D,ν,τ|HA,I)dνdτ

P(H0|I)P(HA|I)

P(D,μ,σ|H0,I)=P(μ,σ|H0,I)P(D|μ,σ,H0,I)
P(D,ν,τ|HA,I)=P(ν,τ|HA,I)P(D|ν,τ,HA,I)

L1<μ,τ<U1L2<σ,τ<U2

(2π)N2(U1L1)log(U2L2)L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσ

s2=N1i=1N(YiY¯)2Y¯=N1i=1NYi

πN(U1L1)log(U2L2)L2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

И теперь, взяв соотношение, мы находим, что важные части нормализующих констант отменяются, и получаем:

P(D|H0,I)P(D|HA,I)=(π2)N2L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσL2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

И все интегралы по-прежнему правильны в пределе, поэтому мы можем получить:

P(D|H0,I)P(D|HA,I)=(2π)N20σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

0σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ=2Nπ0σNexp(Ns22σ2)dσ

λ=σ2dσ=12λ32dλ

2Nπ0λN121exp(λNs22)dλ=2Nπ(2Ns2)N12Γ(N12)

И мы получаем в качестве окончательной аналитической формы коэффициенты для численной работы:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)×πN+12NN2s(N1)Γ(N12)0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

So this can be thought of as a specific test of finite versus infinite variance. We could also do a T distribution into this framework to get another test (test the hypothesis that the degrees of freedom is greater than 2).


1
When you started to integrate, you introduced a term s2. It persists through the final answer. What is it?
whuber

2
@whuber - s is the standard deviation MLE, s2=N1i=1N(YiY¯)2. I thought it was the usual notation for standard deviation, just as Y¯ is usual for average - which I have incorrectly written as x¯, will edit accordingly
probabilityislogic

5

The counterexample is not relevant to the question asked. You want to test the null hypothesis that a sample of i.i.d. random variables is drawn from a distribution having finite variance, at a given significance level. I recommend a good reference text like "Statistical Inference" by Casella to understand the use and the limit of hypothesis testing. Regarding h.t. on finite variance, I don't have a reference handy, but the following paper addresses a similar, but stronger, version of the problem, i.e., if the distribution tails follow a power law.

POWER-LAW DISTRIBUTIONS IN EMPIRICAL DATA SIAM Review 51 (2009): 661--703.


1

One approach that had been suggested to me was via the Central Limit Theorem.

This is a old question, but I want to propose a way to use the CLT to test for large tails.

Let X={X1,,Xn} be our sample. If the sample is a i.i.d. realization from a light tail distribution, then the CLT theorem holds. It follows that if Y={Y1,,Yn} is a bootstrap resample from X then the distribution of:

Z=n×mean(Y)mean(X)sd(Y),

is also close to the N(0,1) distribution function.

Now all we have to do is perform a large number of bootstraps and compare the empirical distribution function of the observed Z's with the e.d.f. of a N(0,1). A natural way to make this comparison is the Kolmogorov–Smirnov test.

The following pictures illustrate the main idea. In both pictures each colored line is constructed from a i.i.d. realization of 1000 observations from the particular distribution, followed by a 200 bootstrap resamples of size 500 for the approximation of the Z ecdf. The black continuous line is the N(0,1) cdf.

enter image description here enter image description here


2
No amount of bootstrapping will get you anywhere against the problem I raised in my answer. That's because the vast majority of samples will not supply any evidence of a heavy tail--and bootstrapping, by definition, uses only the data from the sample itself.
whuber

1
@whuber If the X values are taken from a symmetrical power law, then the generalized CLT applies and KS test will detect the difference. I believe that your observation do not correctly characterize what you say is a "gradual step from "finite" to "infinite""
Mur1lo

1
The CLT never "applies" to any finite sample. It's a theorem about a limit.
whuber

1
Когда я говорю, что это «применимо», я только говорю, что это дает хорошее приближение, если у нас большая выборка.
Mur1lo

1
Неопределенность «хорошего приближения» и «большого», к сожалению, не в состоянии охватить логику проверки гипотез. В вашем утверждении подразумевается возможность собирать все более крупные выборки, пока вы не сможете обнаружить «грубую хвостик»: но тесты гипотез обычно не работают. В стандартных настройках у вас есть данный образец, и ваша задача - проверить, соответствует ли он из распределения в нулевой гипотезе. В этом случае начальная загрузка не сделает это лучше, чем любой более простой тест.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.