Статистический тест для значения, находящегося значительно дальше от населения, означает: это Z-тест или T-тест?

Насколько значимым является значение по сравнению со списком значений? В большинстве случаев статистическое тестирование предполагает сравнение выборочного набора с популяцией. В моем случае выборка производится по одному значению, и мы сравниваем его с населением.

Я дилетант в тестировании статистических гипотез, столкнулся, пожалуй, с самой основной проблемой. Это не один тест, а сотни. У меня есть пространство параметров, и я должен сделать тест значимости для каждой точки. Оба значения и фоновый список (население) генерируются для каждой комбинации параметров. Затем я упорядочиваю это по p-значению и нахожу интересные комбинации параметров. На самом деле, нахождение комбинаций параметров, где этот p-val является высоким (незначимым), также важно.

Итак, давайте возьмем один тест: у меня есть вычисленное значение, сгенерированное из выбранного набора, и фоновый набор значений, вычисленный путем выбора случайного обучающего набора. Вычисленное значение составляет 0,35, а фоновый набор (вероятно?) Обычно распределяется со средним значением 0,25 и очень узким стандартным значением (e-7). На самом деле я не обладаю знаниями о распределении, потому что выборки вычисляются из чего-то другого, они не являются выборками случайных чисел из некоторого распределения, поэтому фон - правильное слово для этого.

Нулевая гипотеза состояла бы в том, что «среднее значение выборочного теста равно моему вычисленному значению 0,35». Когда я должен считать это Z-тестом или T-тестом? Я хочу, чтобы значение было значительно выше, чем среднее значение по населению, поэтому это односторонний тест.

Я немного сбит с толку относительно того, что считать образцом: у меня либо один образец (наблюдение), и фоновый список в качестве совокупности, ИЛИ мой образец - фоновый список, и я сравниваю его со всем (без выборки). население, которое согласно нулевой гипотезе должно иметь одинаковое среднее значение. Как только это решено, тест идет в разные стороны, я думаю.

Если это T-тест, как мне вычислить его p-значение? Я хотел бы вычислить его сам, а не использовать функцию R / Python / Excel (я уже знаю, как это сделать), поэтому сначала я должен установить правильную формулу.

T = Z / s,

$T=Z/s,$

Z = \frac{\bar{X}}{\frac{σ}{\sqrt{n}}}

$Z=\frac{\bar{X}}{\frac{\sigma}{\sqrt{n}}}$

s = \hat{σ} / σ

$s=\hat{\sigma}/\sigma$

Как вычислить p-значение? (то есть, не используя функцию R / Python / Excel или просмотр таблицы p-значений, но фактически вычисляя ее на основе формулы, потому что я хочу знать, что я делаю)
Как определить порог значимости на основе размера моей выборки? (формула была бы хороша)

hypothesis-testing statistical-significance

— grokkaine
источник

10^{6}

$10^6$

0.35 = 10^{6} \times 10^{- 7} + 0.25

$0.35 = 10^6 \times 10^{-7} + 0.25$

0.35

$0.35$

@grokkaine - этот вопрос поднимает интересные вопросы и кажется ценным, но я бы посчитал его еще более ценным, если бы вы немного отредактировали его, стараясь быть очень точными с вашими условиями.

— rolando2

Это не один тест, а сотни. У меня есть пространство параметров, и я должен сделать тест значимости для каждой точки. Оба значения и фоновый список (население) генерируются для каждой комбинации параметров. Затем я упорядочиваю это по p-значению и нахожу интересные комбинации параметров. На самом деле, нахождение комбинаций параметров, где этот p-val является высоким (незначимым), также важно. Я постараюсь отредактировать свой пост чуть позже.

— grokkaine

Ответы:

Вы поднимаете интересный вопрос. Прежде всего, если у вас есть наблюдение 0,35, среднее значение 0,25 и стандартное отклонение 1/10 ^ 7 (именно так я интерпретирую ваш бит е ^ -7), вам действительно не нужно вдаваться в какие-либо гипотезы. тестовое упражнение. Ваше наблюдение 0,35 сильно отличается от среднего значения 0,25, учитывая, что оно будет составлять несколько тысяч стандартных отклонений от среднего значения и, вероятно, будет составлять несколько миллионов стандартных ошибок от среднего.

Разница между Z-тестом и t-тестом относится главным образом к размеру выборки. Для образцов меньше 120 вы должны использовать t-критерий для вычисления значений p. Когда размеры выборки больше, чем это, это не имеет большого значения, если вообще, какой вы используете. Интересно рассчитать его в обоих направлениях независимо от размера выборки и наблюдать, насколько мало различий между этими двумя тестами.

Что касается расчета самостоятельно, вы можете рассчитать t stat, разделив разницу между вашим наблюдением и средним значением и разделив ее на стандартную ошибку. Стандартной ошибкой является стандартное отклонение, деленное на квадратный корень размера выборки. Теперь у вас есть т т стат. Чтобы рассчитать значение ap, я думаю, что нет альтернативы, кроме как посмотреть ваше значение t в тестовой таблице. Если вы принимаете простую альтернативу Excel, TDIST (t stat value, DF, 1 или 2 для 1 или 2 tail p value) делает свое дело. Чтобы вычислить значение ap с использованием Z, формула Excel для теста 1 хвоста: (1 - NORMSDIST (значение Z). Значение Z совпадает со значением t stat (или числом стандартной ошибки вдали от среднего значения).

Как предостережение, эти методы проверки гипотез могут быть искажены размером выборки. Другими словами, чем больше размер вашей выборки, тем меньше ваша стандартная ошибка, чем выше полученное вами значение Z или t stat, тем ниже значение p и тем выше ваша статистическая значимость. Как кратчайший путь в этой логике, большие размеры выборки приведут к высокой статистической значимости. Но высокая статистическая значимость в связи с большим размером выборки может быть совершенно несущественной. Другими словами, статистически значимой является математическая фраза. Это не обязательно означает значительный (согласно словарю Вебстера).

Чтобы уйти от этой ловушки с большим размером выборки, статистики перешли к методам Effect Size. Последние используют в качестве единицы статистического расстояния между двумя наблюдениями стандартное отклонение вместо стандартной ошибки. При такой структуре размер выборки не повлияет на вашу статистическую значимость. Использование Effect Size также приведет к тому, что вы переместитесь от значений p к доверительным интервалам, которые могут быть более значимыми в простом английском языке.

— Sympa
источник

Спасибо за ответ, я немного сбит с толку относительно того, что считать образцом: у меня либо один образец (наблюдение) и фоновый список в качестве совокупности, ИЛИ мой образец - фоновый список, и я сравниваю его с целое (несобранное) население, которое согласно нулевой гипотезе должно иметь одинаковое среднее значение. Как только это решено, тест идет в разные стороны, я думаю.

— grokkaine

Используйте все наблюдения, которые вы имеете в качестве образца (как бы вы это ни называли). И вычислите статистическое расстояние между одним наблюдением и средним значением выборки, как определено. Рассчитайте стандартное отклонение и стандартную ошибку вашего образца. И статистическое расстояние вашего наблюдения от среднего: (Наблюдение - Среднее) / Стандартная ошибка = t stat. Используйте функцию Excel TDIST (DF, t stat, 1 (для одного хвоста)), и вы получите значение p.

— Симпа

Проверка гипотезы всегда относится к населению. Если вы хотите сделать заявление о пробе, вам не нужно тестировать (просто сравните то, что вы видите). Частые люди верят в асимптотику, поэтому, пока размер вашей выборки велик, не беспокойтесь о распределении ваших данных. Z-тест и T-тест делают в основном одно и то же с точки зрения вычисления статистики теста, только критические значения получаются из разных распределений (Normal против Student-T). Если размер вашей выборки велик, разница незначительна.

Что касается Q1: просто посмотрите на него из T-распределения с n-1 степенями свободы, где n - размер выборки.

Относительно Q2: Вы вычисляете порог на основе желаемого уровня значимости для Z-теста и на основе уровня значимости для размера выборки в случае T-теста.

А если серьезно, вы должны рассмотреть некоторые основы.

— joint_p
источник

Спасибо за ответ. На самом деле я использовал t-dist, но я также хотел понять, почему я его использую. Как вы определяете «большую» выборку и как отличается значение p? Что еще более важно, как мы узнаем, когда распределение нормальное или ученическое? Есть ли статистический тест для этого? Может быть, использовать тест Колмогорова-Смирнова для второго и хм .. что использовать для первого?

— grokkaine

большие ... ну Z и t сходятся, начиная с n = 60. Просто сравните p-значения, полученные из обоих тестов. Предположение о t / нормальном распределении не зависит от распределения базовых данных. Он основан на предположении, что выборочное распределение среднего значения является нормальным. Даже если переменная, которую вы тестируете, является распределенной Gamma, она все еще сохраняется. При n = 200 или около того все должно работать нормально. Опять же, все эти вещи основаны на частой статистике.

— joint_p

+1 за комментарий о проверке гипотез, всегда ссылающийся на население, но -1 за кажущееся упущенным тот факт, что у спрашивающего есть образец 1.

— Питер Эллис

Я действительно не был уверен, что «у меня есть вычисленное значение и фоновый набор случайно сгенерированных значений. Расчетное значение равно 0,35» должно было означать ... Я подумал, что это как-то подразумевает, что существует более 1 наблюдения.

— joint_p

повторная публикация моих комментариев из других абзацев: я немного смущен тем, что считать образцом: у меня либо один образец (наблюдение) и фоновый список в качестве совокупности, либо моя выборка - фоновый список и Я сравниваю это с целым (несобранным) населением, которое согласно нулевой гипотезе должно иметь одинаковое среднее значение. Как только это решено, тест идет в разные стороны, я думаю.

— grokkaine