Влияние границ бина на основе данных на критерий пригодности хи-квадрат?


18

Оставляя в стороне очевидную проблему малой мощности хи-квадрата в подобных обстоятельствах, представьте себе, что вы проводите проверку качества хи-квадрата для некоторой плотности с неопределенными параметрами путем объединения данных.

Для конкретности, скажем, экспоненциальное распределение с неизвестным средним и размером выборки, скажем, 100.

Чтобы получить разумное количество ожидаемых наблюдений на одну ячейку, необходимо принять во внимание некоторые данные (например, если мы решили поместить 6 столбцов ниже среднего значения и 4 над ним, то при этом все равно будут использоваться границы бинов на основе данных) ,

Но такое использование бинов, основанное на просмотре данных, предположительно повлияет на распределение тестовой статистики при нулевом значении.

Я видел много дискуссий о том факте, что - если параметры оцениваются по максимальной вероятности из бин- данных - вы теряете 1 df на расчетный параметр (проблема, относящаяся ко времени Фишера против Карла Пирсона) - но я не помню читать что-нибудь о поиске самих границ бункера на основе данных. (Если вы оцениваете их по незавершенным данным, то с помощью бинов распределение тестовой статистики лежит где-то между и .)χ 2 k χ 2 k - pkχk2χkp2

Влияет ли этот выбор корзин на основе данных существенным образом на уровень значимости или мощность? Есть ли какие-то подходы, которые важнее других? Если есть большой эффект, это что-то, что исчезает в больших выборках?

Если бы это оказало существенное влияние, это, похоже, использовало бы критерий хи-квадрат, когда параметры неизвестны, почти бесполезны во многих случаях (несмотря на то, что их все еще пропагандируют в нескольких текстах), если только у вас не было хорошего -приорная оценка параметра.

Обсуждение вопросов или указателей на ссылки (желательно с упоминанием их выводов) было бы полезно.


Отредактируйте, в основном, в сторону основного вопроса:

Мне приходит в голову, что есть потенциальные решения для конкретного случая экспоненциального * (и об этом придет в форму), но я все еще интересуюсь более общей проблемой влияния выбора границ бина.

* Например, для экспоненты можно использовать наименьшее наблюдение (скажем, оно равно ), чтобы получить очень грубое представление о том, где разместить ячейки (поскольку наименьшее наблюдение экспоненциально со средним значением µ / n ), а затем проверить оставшиеся n - 1 различия ( x i - m ) на экспоненциальность. Конечно, это может дать очень плохую оценку μmμ/nn1ximμи, следовательно, неудачный выбор бинов, хотя я полагаю, что можно использовать рекурсивный аргумент для того, чтобы взять два или три самых низких наблюдения, из которых можно выбрать разумные блоки, а затем проверить различия оставшихся наблюдений над самой большой из этих статистик наименьшего порядка для экспоненциальность)


1
Интересный вопрос. Я не знаю ответа, но идея, что некоторые степени свободы должны быть потеряны, имеет смысл. Если вы еще этого не видели, этот ответ @whuber должен вызывать размышления: как понять степени свободы . Мне кажется, что некоторые симуляционные исследования позволят вам получить здесь опору, по крайней мере, для некоторых конкретных случаев.
gung - Восстановить Монику

1
Не уверен, насколько это полезно, но есть аналогичная проблема в области надежной оценки. В частности, метод надежной оценки (например, усеченное среднее) часто требует параметризованного ввода (например, параметр, определяющий, сколько обрезать). Этот параметр может быть выбран методом, управляемым данными (например, посмотрите, насколько жирны хвосты, прежде чем выбрать параметр обрезки). Но предварительный выбор параметра обрезки влияет на распределение усеченного среднего по сравнению, скажем, с правилом фиксированных параметров. Обычный способ, которым это рассматривается в этой литературе, - через загрузчик.
Колин Т Боуэрс

@ColinTBowers - потенциально несколько полезно, спасибо. Не думал о возможности самозагрузки.
Glen_b

1
Может быть интересно разбить проблему на простейший случай. Представьте себе что-то вроде 5 наблюдений из вашего любимого дистрибутива и поместите в данные один делитель, чтобы сформировать всего две ячейки.
zkurtz

Ответы:


15

Основные результаты проверки на соответствие критерия хи-квадрат можно понять иерархически .

Уровень 0 . Классическая статистика критерия хи-квадрат Пирсона для проверки полиномиальной выборки с фиксированным вектором вероятности равна X 2 ( p ) = kp Где Х ( п ) я обозначает число исходов в I - ю ячейку из выборки размера п . Это можно плодотворно рассматривать как квадратную норму вектора Y n = ( Y ( n ) 1 , , Y ( n ) k ), где Y ( n

X2(p)=i=1k(Xi(n)npi)2npidχk12,
Xi(n)inYn=(Y1(n),,Yk(n)) который по многомерной центральной предельной теореме сходится по распределению при Y n d N(0,I-Yi(n)=(Xi(n)npi)/npi Отсюда видно, что X 2 = Y n 2χ 2 k - 1, поскольку I -
YndN(0,IppT).
X2=Yn2χk12идемпотент рангаk-1.IppTk1

Уровень 1 . На следующем уровне иерархии мы рассматриваем сложные гипотезы с многочленными выборками. Поскольку интересующий нас точный неизвестен при нулевой гипотезе, мы должны оценить его. Если нулевая гипотеза является составной и состоит из линейного подпространства измерения m , то оценки максимального правдоподобия (или другие эффективные оценки) p i могут использоваться в качестве «подключаемых» оценок. Тогда статистика X 2 1 = k i = 1 (pmpi При нулевой гипотезе.

X12=i=1k(Xi(n)np^i)2np^idχkm12,

Уровень 2 . Рассмотрим случай проверки пригодности параметрической модели, когда ячейки фиксированы и известны заранее: например, у нас есть выборка из экспоненциального распределения со скоростью и из этого мы получаем многочленовую выборку, разбивая ее на k ячеек, тогда вышеупомянутый результат остается в силе при условии, что мы используем эффективные оценки (например, MLE) самих вероятностей бина, используя только наблюдаемые частоты .λk

mm=1

X22=i=1k(Xi(n)np^i)2np^idχkm12,
p^i

Z1,,ZnFλλχkm12χk12

YnN(0,IpλpλTA(λ))

λA(λ)

YnB(λ^)

YnTBTBYndχk12,
k

Примерами могут служить статистика Рао-Робсон-Никулин и статистики Джапаридзе-Никулин .

k1/kI^j=μ^+σ^I0,jI0,j=[F1((j1)/k),F1(j/k)). This result has been further extended to the case where the number of random cells grows with the sample size.

References

  1. A W. van der Vaart (1998), Asymptotic Statistics, Cambridge University Press. Chapter 17: Chi-Square Tests.

  2. H. Chernoff and E. L. Lehmann (1954), The use of maximum likelihood estimates in χ2 tests for goodness of fit, Ann. Math. Statist., vol. 25, no. 3, 579–586.

  3. F. C. Drost (1989), Generalized chi-square goodness-of-fit tests for location-scale models when the number of classes tends to infinity, Ann. Stat, vol. 17, no. 3, 1285–1300.

  4. M. S. Nikulin, M.S. (1973), Chi-square test for continuous distribution with shift and scale parameters, Theory of Probability and its Application, vol. 19, no. 3, 559–568.

  5. K. O. Dzaparidze and M. S. Nikulin (1973), On a modification of the standard statistics of Pearson, Theory of Probability and its Application, vol. 19, no. 4, 851–853.

  6. K. C. Rao and D. S. Robson (1974), A chi-square statistic for goodness of fit tests within exponential family, Comm. Statist., vol 3., no. 12, 1139–1153.

  7. N. Balakrishnan, V. Voinov and M. S. Nikulin (2013), Chi-Squared Goodness of Fit Tests With Applications, Academic Press.


5

I've found at least partial answers to my question, below. (I'd still like to give someone that bonus, so any further information appreciated.)

Moore (1971) said that Roy (1956) and Watson (1957,58,59) showed that when the cell boundaries for a chi-square statistic are functions of best asymptotic normal estimated parameter values, then under certain conditions, the asymptotic null distribution of the chi-square statistic is still that of a sum of a χkp12 and a weighted sum of p χ12 variables (for k cells, p parameters) where the weights are between 0 and 1 (making the cdf of the distribution between that of a χkp2 and a χk2, as alluded to in my question for the distribution when using ML estimation), and the weights on those last p terms are unaffected by that estimation.

References

Moore D.S. (1971), A Chi-Square Statistic with Random Cell Boundaries, Ann. Math. Stat., Vol 42, No 1, 147–156.

Roy A.R. (1956), On χ2 statistics with variable intervals, Technical Report No. 1, Dept of Statistics, Stanford University.

Watson, G.S. (1957), The χ2 goodness-of-fit test for normal distributions, Biometrika, 44, 336–348.

Watson, G.S. (1958), On χ2 goodness-of-fit tests for continuous distributions, J. Royal Statist. Soc. B, 20, 44–61.

Watson, G.S. (1959), Some recent results in χ2 goodness-of- fit tests, Biometrics, 15, 440-468

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.