Оставляя в стороне очевидную проблему малой мощности хи-квадрата в подобных обстоятельствах, представьте себе, что вы проводите проверку качества хи-квадрата для некоторой плотности с неопределенными параметрами путем объединения данных.
Для конкретности, скажем, экспоненциальное распределение с неизвестным средним и размером выборки, скажем, 100.
Чтобы получить разумное количество ожидаемых наблюдений на одну ячейку, необходимо принять во внимание некоторые данные (например, если мы решили поместить 6 столбцов ниже среднего значения и 4 над ним, то при этом все равно будут использоваться границы бинов на основе данных) ,
Но такое использование бинов, основанное на просмотре данных, предположительно повлияет на распределение тестовой статистики при нулевом значении.
Я видел много дискуссий о том факте, что - если параметры оцениваются по максимальной вероятности из бин- данных - вы теряете 1 df на расчетный параметр (проблема, относящаяся ко времени Фишера против Карла Пирсона) - но я не помню читать что-нибудь о поиске самих границ бункера на основе данных. (Если вы оцениваете их по незавершенным данным, то с помощью бинов распределение тестовой статистики лежит где-то между и .)χ 2 k χ 2 k - p
Влияет ли этот выбор корзин на основе данных существенным образом на уровень значимости или мощность? Есть ли какие-то подходы, которые важнее других? Если есть большой эффект, это что-то, что исчезает в больших выборках?
Если бы это оказало существенное влияние, это, похоже, использовало бы критерий хи-квадрат, когда параметры неизвестны, почти бесполезны во многих случаях (несмотря на то, что их все еще пропагандируют в нескольких текстах), если только у вас не было хорошего -приорная оценка параметра.
Обсуждение вопросов или указателей на ссылки (желательно с упоминанием их выводов) было бы полезно.
Отредактируйте, в основном, в сторону основного вопроса:
Мне приходит в голову, что есть потенциальные решения для конкретного случая экспоненциального * (и об этом придет в форму), но я все еще интересуюсь более общей проблемой влияния выбора границ бина.
* Например, для экспоненты можно использовать наименьшее наблюдение (скажем, оно равно ), чтобы получить очень грубое представление о том, где разместить ячейки (поскольку наименьшее наблюдение экспоненциально со средним значением µ / n ), а затем проверить оставшиеся n - 1 различия ( x i - m ) на экспоненциальность. Конечно, это может дать очень плохую оценку μи, следовательно, неудачный выбор бинов, хотя я полагаю, что можно использовать рекурсивный аргумент для того, чтобы взять два или три самых низких наблюдения, из которых можно выбрать разумные блоки, а затем проверить различия оставшихся наблюдений над самой большой из этих статистик наименьшего порядка для экспоненциальность)