Помимо теста Дурбина-Уотсона, какие проверки гипотез могут дать неубедительные результаты?

10

Тестовая статистика Дарбины-Уотсон может лежать в безрезультатной области, где не возможно либо отклонить или не отвергнуть нулевую гипотезу (в данном случае, нулевой автокорреляции).

Какие другие статистические тесты могут дать "неубедительные" результаты?

Существует ли общее объяснение (хорошо машет рукой), почему этот набор тестов не может принять двоичное решение «отклонить» / «не отклонить»?

Было бы неплохо, если бы кто-то мог упомянуть теоретико-обоснованные последствия как часть своего ответа на последний запрос - означает ли наличие дополнительной категории (не) заключения, что нам нужно учитывать затраты типа I и типа II ошибки более сложным способом?

hypothesis-testing statistical-significance decision-theory

— тарпон
источник

2

Немного не по теме, но рандомизированные тесты имеют такой вкус. Для некоторых значений данных вам нужно рандомизировать, а не принимать и отклонять.

— Кристоф Ханк

@ChristophHanck спасибо, это была интересная связь, которую я бы не заметил. Не то, что я намеревался, но я целенаправленно оставлял вопрос неопределенным в надежде, что он будет всеобъемлющим - в зависимости от ответа (ов), я могу усилить его фокус позже.

— Серебряная рыба

10

Статья Википедии объясняет , что распределение тестовой статистики при нулевой гипотезе , зависит от конструкции матрицы-конкретной конфигурации значений предикторов , используемых в регрессии. Durbin & Watson рассчитали нижние границы для статистики теста, при которых тест на положительную автокорреляцию должен отклоняться при заданных уровнях значимости для любой матрицы проекта, а также верхние границы, по которым тест не должен отклоняться для любой матрицы проекта. «Неокончательный регион» - это просто регион, в котором вам нужно рассчитать точные критические значения, принимая во внимание вашу матрицу проектирования, чтобы получить определенный ответ.

Аналогичная ситуация будет заключаться в том, чтобы выполнить односторонний t-критерий с одной выборкой, когда вы знаете только t-статистику, а не размер выборки ^† : 1,645 и 6,31 (соответствующие бесконечным степеням свободы и только одна) будут границы для теста размером 0,05.

Что касается теории принятия решений - у вас есть новый источник неопределенности, который необходимо принимать во внимание, кроме вариаций выборки, но я не понимаю, почему его не следует применять таким же образом, как в случае составных нулевых гипотез. Вы находитесь в той же ситуации, что и человек с неизвестным параметром неприятности, независимо от того, как вы туда попали; поэтому, если вам необходимо принять решение отклонить / сохранить при контроле ошибки Типа I для всех возможностей, отклоните ее консервативно (т. е. когда статистика Дурбина-Ватсона находится под нижней границей или t-статистика превышает 6,31).

† Или, возможно, вы потеряли свои столы; но можно запомнить некоторые критические значения для стандартного гауссова, а также формулу для функции квантиля Коши.

— Scortchi - Восстановить Монику
источник

(+1) Спасибо. Я знал, что это относится к тесту Дурбина-Ватсона (следовало бы упомянуть об этом в моем вопросе), но подумал, является ли это примером более общего явления, и если да, то работают ли они все по существу одинаково. Я предположил, что это может произойти, например, при выполнении определенных тестов, когда один имеет доступ только к сводным данным (не обязательно в регрессии), но DW - единственный случай, который я могу вспомнить, когда верхние и нижние критические значения были скомпилированы и сведены в таблицу , Если у вас есть какие-либо мысли о том, как я могу сделать этот вопрос более целенаправленным, это было бы очень кстати.

— Серебряная рыба

Первый вопрос немного расплывчатый («Какие еще статистические тесты [...]?»), Но я не думаю, что вы могли бы уточнить его, не ответив на второй («Есть ли общее объяснение [...]?») себя - в целом я думаю, что все в порядке.

— Scortchi - Восстановить Монику

7

Другим примером теста с возможно неубедительными результатами является биномиальный тест для пропорции, когда доступна только пропорция, а не размер выборки. Это не совсем нереально - мы часто видим или слышим плохо сообщаемые заявления в форме «73% людей согласны с тем, что ...» и так далее, где знаменатель недоступен.

Предположим, например, что мы знаем только пропорцию выборки, округленную правильно до ближайшего целого процента , и мы хотим проверить против на уровне . $H_0: \pi = 0.5$ $H_1: \pi \neq 0.5$ $\alpha = 0.05$

Если наша наблюдаемая пропорция была то размер выборки для наблюдаемой пропорции должен быть не менее 19, поскольку - это фракция с наименьшим знаменателем, которая округляется до . Мы не знаем, было ли на самом деле наблюдаемое количество успехов: 1 из 19, 1 из 20, 1 из 21, 1 из 22, 2 из 37, 2 из 38, 3 из 55, 5 из 100 или 50 из 1000 ... но, в зависимости от того, что это, результат будет значительным на уровне . $p=5\%$ $\frac{1}{19}$ $5\%$ $\alpha = 0.05$

С другой стороны, если мы знаем, что доля выборки была то мы не знаем, было ли наблюдаемое количество успехов 49 из 100 (что не было бы значительным на этом уровне) или 4900 из 10000 (что просто достигает значения). Так что в этом случае результаты неубедительны. $p = 49\%$

Обратите внимание, что при округленных процентах не существует области «не отклонить»: даже соответствует образцам, таким как 49 500 успехов из 100 000, что приведет к отклонению, а также образцам, таким как 1 успех из 2 испытаний , что приведет к невозможности отклонить . $p=50\%$ $H_0$

В отличие от теста Дурбина-Уотсона, я никогда не видел табличных результатов, для которых проценты значимы; эта ситуация более тонкая, поскольку для критического значения нет верхних и нижних границ. Результат бы явно неубедительным, поскольку нулевые успехи в одном испытании были бы незначительными, но никакие успехи в миллионе испытаний не были бы очень значительными. Мы уже видели, что является окончательным, но есть значительные результаты, например, между ними. Более того, отсутствие отсечки происходит не только из-за аномальных случаев и . Игра немного, наименее значимая выборка, соответствующая $p=0\%$ $p=50\%$ $p=5\%$ $p=0\%$ $p=100\%$ $p=16\%$ 3 успеха в выборке из 19, в этом случае поэтому будет значительным; для мы могли бы иметь 1 успех в 6 испытаниях, что незначительно, так что этот случай неубедителен (так как есть явно другие образцы с которые будет значительным); для может быть 2 успеха в 11 испытаниях (незначительно, ), поэтому этот случай также не окончен; но для наименее значимая возможная выборка - это 3 успеха в 19 испытаниях с так что это снова важно. $\Pr(X \leq 3) \approx 0.00221 < 0.025$ $p=17\%$ $\Pr(X \leq 1) \approx 0.109 > 0.025$ $p=16\%$ $p=18\%$ $\Pr(X \leq 2) \approx 0.0327 > 0.025$ $p=19\%$ $\Pr(X \leq 3) \approx 0.0106 < 0.025$

Фактически - это самый высокий округленный процент ниже 50%, который должен быть однозначно значимым на уровне 5% (его наибольшее значение p будет для 4 успехов в 17 испытаниях и является просто значимым), тогда как является самым низким ненулевым результатом, который не является окончательным (поскольку он может соответствовать 1 успеху в 8 испытаниях). Как видно из приведенных выше примеров, то, что происходит между ними, является более сложным! График ниже имеет красную линию в : точки под линией однозначно значимы, а те, что выше, неубедительны. Структура значений p такова, что не будет единого нижнего и верхнего пределов наблюдаемого процента, чтобы результаты были однозначно значимыми. $p=24\%$ $p=13\%$ $\alpha=0.05$

Наименьшее значимое p-значение биномиального теста с неизвестным размером выборки

Код R

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(Код округления извлекается из этого вопроса StackOverflow .)

— тарпон
источник