Дает ли равномерное распределение многих p-значений статистическое свидетельство того, что H0 истинно?


28

Один статистический тест может подтвердить, что нулевая гипотеза (H0) ложна, и, следовательно, альтернативная гипотеза (H1) верна. Но это не может использоваться, чтобы показать, что H0 истинно, потому что отказ отклонить H0 не означает, что H0 истинно.

Но давайте предположим, что у вас есть возможность выполнять статистический тест много раз, потому что у вас много наборов данных, все они независимы друг от друга. Все наборы данных являются результатом одного и того же процесса, и вы хотите сделать какое-то утверждение (H0 / H1) над самим процессом, и вас не интересуют результаты каждого отдельного теста. Затем вы собираете все полученные значения p и по графику гистограммы видите, что значения p четко распределены равномерно.

Теперь я рассуждаю так: это может произойти, только если H0 истинно, иначе p-значения будут распределены по-другому. Следовательно, достаточно ли этого доказательства, чтобы сделать вывод, что H0 истинно? Или я упускаю здесь что-то важное, потому что мне потребовалось много силы воли, чтобы написать «сделать вывод, что H0 - правда», что звучит ужасно неправильно в моей голове.


1
Возможно, вас заинтересует мой ответ на другой вопрос stats.stackexchange.com/questions/171742/…, в котором есть некоторые комментарии о гипотезах здесь.
mdewey

H0 ложно по определению.
Иисус Навин

1
Кстати, причина, по которой у меня так много тестов (и я не просто объединил все данные в один), заключается в том, что мои данные пространственно распределены по всему земному шару, и я хотел посмотреть, есть ли пространственные шаблоны в p-значения (нет, но если бы они были, это означало бы, что либо нарушена независимость, либо H0 / H1 истинен в разных частях земного шара). Я не включил это в текст вопроса, потому что хотел сделать его общим.
Леандер Мезингер,

Ответы:


22

Мне нравится ваш вопрос, но, к сожалению, мой ответ НЕТ, он не доказывает . Причина очень проста. Откуда вы знаете, что распределение значений p является равномерным? Возможно, вам придется запустить тест на однородность, который вернет вам собственное значение p, и вы получите тот же самый вопрос логического вывода, которого пытались избежать, всего лишь на один шаг дальше. Вместо того, чтобы смотреть на p-значение исходного , теперь вы смотрите на p-значение другого относительно равномерности распределения исходных p-значений.H0H0H0

ОБНОВИТЬ

Вот демонстрация. Я генерирую 100 выборок из 100 наблюдений из распределения Гаусса и Пуассона, затем получаю 100 p-значений для проверки нормальности каждой выборки. Итак, предпосылка вопроса заключается в том, что, если p-значения получены из равномерного распределения, то это доказывает, что нулевая гипотеза верна, что является более сильным утверждением, чем обычное «не отвергается» в статистическом выводе. Беда в том, что «p-значения из единообразных» - это сама гипотеза, которую вы должны как-то проверить.

На рисунке (первая строка) ниже я показываю гистограммы p-значений из теста нормальности для образца Гуасса и Пуассона, и вы можете видеть, что трудно сказать, является ли одно более однородным, чем другое. Это была моя главная мысль.

Во втором ряду показан один из образцов из каждого распределения. Образцы относительно небольшие, поэтому вы не можете иметь слишком много бункеров. На самом деле, этот конкретный гауссовский образец вообще не выглядит так много гауссовски на гистограмме.

В третьей строке я показываю объединенные выборки из 10 000 наблюдений для каждого распределения на гистограмме. Здесь вы можете иметь больше корзин, и формы более очевидны.

Наконец, я запускаю тот же тест нормальности и получаю p-значения для комбинированных выборок, и он отклоняет нормальность для Пуассона, но не отклоняет для Гаусса. Значения p: [0.45348631] [0.]

введите описание изображения здесь

Это, конечно, не доказательство, а демонстрация идеи о том, что лучше проводить один и тот же тест на комбинированном образце, а не пытаться анализировать распределение значений р из подвыборок.

Вот код Python:

import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

def pvs(x):
    pn = x.shape[1]
    pvals = np.zeros(pn)
    for i in range(pn):
        pvals[i] = stats.jarque_bera(x[:,i])[1]
    return pvals

n = 100
pn = 100
mu, sigma = 1, 2
np.random.seed(0)
x = np.random.normal(mu, sigma, size=(n,pn))
x2 = np.random.poisson(15, size=(n,pn))
print(x[1,1])

pvals = pvs(x)
pvals2 = pvs(x2)

x_f = x.reshape((n*pn,1))
pvals_f = pvs(x_f)

x2_f = x2.reshape((n*pn,1))
pvals2_f = pvs(x2_f)
print(pvals_f,pvals2_f)

print(x_f.shape,x_f[:,0])


#print(pvals)
plt.figure(figsize=(9,9))
plt.subplot(3,2,1)
plt.hist(pvals)
plt.gca().set_title('True Normal')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,2)
plt.hist(pvals2)
plt.gca().set_title('Poisson')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,3)
plt.hist(x[:,0])
plt.gca().set_title('a small sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,4)
plt.hist(x2[:,0])
plt.gca().set_title('a small Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,5)
plt.hist(x_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,6)
plt.hist(x2_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.show()

2
@LeanderMoesinger, вы сделаете более сильное замечание, собрав все свои тесты в один. Предположим, у вас есть выборка с 100 наблюдениями, и вы получите значение p; затем получите 99 дополнительных образцов и получите 100 р-значений. Вместо этого вы можете просто запустить один образец из 10 000 наблюдений и получить значение p, но это будет более убедительно.
Аксакал

1
@LeanderMoesinger, скорее всего, он не маленький
Аксакал

1
Ваш ответ не касается вопроса, он спрашивал не о доказательствах, а о доказательствах .
Карлос Синелли

3
@CarlosCinelli, у него будет куча p-значений, которые он бы назвал одинаковыми. Как это доказательство, если он не доказывает, что значения взяты из униформы? Это то, о чем я говорю.
Аксакал

2
@Aksakal это касается математики, наблюдаемое событие (например, последовательность значений p) может не являться доказательством чего-либо, но причина логически не вытекает из вашего аргумента.
Карлос Синелли

21

Ваш ряд экспериментов можно рассматривать как один эксперимент с гораздо большим количеством данных, и, как мы знаем, больше данных выгодно (например, обычно стандартные ошибки уменьшаются при увеличении для независимых данных). Но вы спрашиваете: «Это ... достаточно доказательств, чтобы сделать вывод, что H0 - правда?n

Нет. Основная проблема заключается в том, что другая теория может создавать аналогичные шаблоны в данных! Как @ Björn обсуждает в своем ответе, вы не сможете отклонить ложное значение если в вашем эксперименте не хватает силы, чтобы отличить от других возможностей. На протяжении веков нам не удавалось отвергать теорию гравитации Ньютона, потому что никто не проводил тесты, в которых теория Ньютона дает достаточно разные предсказания, чем теория общей теории относительности Эйнштейна. Менее экстремальные примеры являются обычным явлением.H0H0

Дэвид Хьюм и проблема индукции

Возможно перефразировка : «Если я получаю все больше и больше данных , совместимые с быть верным, я могу сделать вывод , что когда - либо это правда?»H0H0

Этот вопрос тесно связан с проблемой индукции философа 18-го века Дэвида Хьюма . Если все наблюдаемые экземпляры A были B , можем ли мы сказать, что следующим экземпляром A будет B? Юм сказал, что нет, что мы не можем логически вывести, что «все А есть В», даже из объемных данных. В более современной математике конечный набор наблюдений не может логически повлечь за собой если A не является конечным множеством. Два примечательных примера, обсуждаемых Маги и Пассермором :aA[aB]

  • На протяжении веков каждый лебедь, которого наблюдали европейцы, был белым. Тогда европейцы открыли Австралию и увидели черных лебедей.

  • На протяжении веков закон тяготения Ньютона соглашался с наблюдением и считался правильным. Он был перевернут, хотя теория общей относительности Эйнштейна.

Если вывод Хьюма верен, доказательство истинно недостижимо. То, что мы не можем делать заявления с уверенностью, не равнозначно тому, что мы вообще ничего не знаем. Экспериментальная наука и статистика успешно помогли нам понять и ориентироваться в мире.H0

(Неполный) список путей продвижения вперед:

Карл Поппер и фальсификация

По мнению Карла Поппера , ни один научный закон никогда не будет доказан. У нас есть только научные законы, еще не доказанные ложными.

Поппер утверждал, что наука продвигается вперед, угадывая гипотезы и подвергая их тщательному анализу. Он продвигается вперед посредством дедукции (наблюдения, доказывающие ложность теорий), а не индукции (повторные наблюдения, подтверждающие верность теорий) Большая часть статистики часто строилась в соответствии с этой философией.

Точка зрения Поппера была чрезвычайно влиятельной, но, как утверждали Кун и другие, она не совсем соответствует эмпирически наблюдаемой практике успешной науки.

Байесовская, субъективная вероятность

Давайте предположим, что нас интересует параметр .θ

Для статистика, частыми исследованиями, параметр - это скалярное значение, число. Если вместо этого вы используете субъективную байесовскую точку зрения (например, в Фонде статистики Леонарда Джимми Сэвиджа ), вы можете смоделировать свою собственную неопределенность в отношении используя инструменты вероятности. Для субъективного байесовского, является случайной величиной, и у вас есть некоторый предварительный . Вы можете говорить о субъективной вероятности различных значений с учетом данных . То, как вы ведете себя в различных ситуациях, имеет некоторое отношение к этим субъективным вероятностям.θθ θ P ( θ ) P ( θ X ) θ XθθP(θ)P(θX)θX

Это логичный способ моделирования ваших собственных субъективных убеждений, но это не волшебный способ получения вероятностей, которые являются истинными с точки зрения соответствия действительности. Сложный вопрос для любой байесовской интерпретации: откуда берутся приоры? Кроме того, что, если модель не указана?

Джордж П. Бокс

Известный афоризм Джорджа EP Box заключается в том, что «все модели ложные, но некоторые полезны».

Закон Ньютона, возможно, не верен, но он все еще полезен для многих проблем. Мнение Бокса очень важно в современном контексте больших данных, когда исследования настолько сильны, что вы можете отклонить практически любое осмысленное предложение. Строго говоря, а не ложь - это плохой вопрос: важно то, помогает ли модель понять данные.

Дополнительные комментарии

Существует большая разница в статистике между оценкой параметра с небольшой стандартной ошибкой и большой стандартной ошибкой! Не уходите, думая, что, поскольку уверенность невозможна, тщательное изучение не имеет значения.θ0

Возможно также интерес, статистический анализ результатов многочисленных исследований называется метаанализом .

Насколько далеко вы можете выйти за рамки узких статистических интерпретаций - сложный вопрос.


Это было интересное чтение и дало некоторые хорошие вещи для размышления! Я хотел бы принять несколько ответов.
Леандер Мезингер,

Довольно объяснение. Мой проф однажды подытожил Куна в духе Поппера: «Наука переходит от похорон к похоронам»
скруббер

Кун и другие, как известно, неверно истолковывают Поппера, утверждая, что его наблюдения не соответствуют тому, как это делается наукой. Это известно как местный фальсификационизм, и это не то, что предложил Поппер (позже). Это соломенный человек.
Конрад Рудольф

2
Это ответы, как это я продолжаю посещать сайты StackExchange.
Триларион,

5

В некотором смысле вы правы (см. Р-кривую) с некоторыми небольшими оговорками:

  1. pααH0
  2. H0H0

С реалистичными приложениями вы, как правило, получаете дополнительные проблемы. Они в основном возникают, потому что ни один человек / лаборатория / учебная группа обычно не может провести все необходимые исследования. В результате мы склонны рассматривать исследования многих групп, и в этот момент у вас усиливаются опасения (т. Е. Если вы сами выполнили все соответствующие эксперименты, по крайней мере, знаете) о занижении отчетности, выборочной отчетности о значительных / неожиданных результатах, p-хакерство, многократное тестирование / множественные исправления и так далее.


1
(+1) Power Point очень важен! Различные теории могут производить данные, эквивалентные наблюдениям, и критической частью плана эксперимента является получение и / или сбор данных, которые позволили бы вам различать.
Мэтью Ганн

-2

Нулевая гипотеза (H0): гравитация заставляет все во вселенной падать к поверхности Земли.

Альтернативная гипотеза (H1): Ничто не падает.

p<0.01


2
Как вы думаете, Галилей сделал миллион испытаний? Ничего из этого не нужно в физических науках. Установление законов природы с помощью научного метода не сводится к статистическому выводу.
Аксакал

2
-1 Это научно, статистически и исторически неточно. Греки когда-то верили, что именно родство притягивало объекты к Земле. Неплохо, но плохо объясняет проблемы с системой тела 3+. Гипотезы должны быть взаимодополняющими. Наконец, указание возможного известного смещения как H_0 и показ экспериментов продолжают приводить к тому же неверному выводу, что не делает вывод правильным. Например, женщины зарабатывают меньше, чем мужчины, потому что они менее склонны к тому, чтобы оценить все зарплаты женщин, H_0 - это правда!
AdamO

@ AdamO, это точно моя точка зрения.
usul

@ AdamO, в западных странах женщины зарабатывают меньше, когда работают меньше по разным причинам, в том числе по собственному выбору, противодействиям всех видов и враждебным условиям труда в некоторых местах. Когда они работают одинаково, они зарабатывают примерно одинаково, например, смотрите зарплату медсестры, где женщины составляют большинство: medscape.com/slideshow/… . Все они зарабатывают 37 долларов при работе каждый час. Совершенно не по теме, конечно.
Аксакал

2
Если ваша нулевая гипотеза Gravity causes everything in the universe to fall toward Earth's surfaceне является альтернативной гипотезой There is at least one thing in the universe that does not fall toward the Earth's surfaceи нет Nothing ever falls?
Eff
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.