Насколько значимым является значение по сравнению со списком значений? В большинстве случаев статистическое тестирование предполагает сравнение выборочного набора с популяцией. В моем случае выборка производится по одному значению, и мы сравниваем его с населением.
Я дилетант в тестировании статистических гипотез, столкнулся, пожалуй, с самой основной проблемой. Это не один тест, а сотни. У меня есть пространство параметров, и я должен сделать тест значимости для каждой точки. Оба значения и фоновый список (население) генерируются для каждой комбинации параметров. Затем я упорядочиваю это по p-значению и нахожу интересные комбинации параметров. На самом деле, нахождение комбинаций параметров, где этот p-val является высоким (незначимым), также важно.
Итак, давайте возьмем один тест: у меня есть вычисленное значение, сгенерированное из выбранного набора, и фоновый набор значений, вычисленный путем выбора случайного обучающего набора. Вычисленное значение составляет 0,35, а фоновый набор (вероятно?) Обычно распределяется со средним значением 0,25 и очень узким стандартным значением (e-7). На самом деле я не обладаю знаниями о распределении, потому что выборки вычисляются из чего-то другого, они не являются выборками случайных чисел из некоторого распределения, поэтому фон - правильное слово для этого.
Нулевая гипотеза состояла бы в том, что «среднее значение выборочного теста равно моему вычисленному значению 0,35». Когда я должен считать это Z-тестом или T-тестом? Я хочу, чтобы значение было значительно выше, чем среднее значение по населению, поэтому это односторонний тест.
Я немного сбит с толку относительно того, что считать образцом: у меня либо один образец (наблюдение), и фоновый список в качестве совокупности, ИЛИ мой образец - фоновый список, и я сравниваю его со всем (без выборки). население, которое согласно нулевой гипотезе должно иметь одинаковое среднее значение. Как только это решено, тест идет в разные стороны, я думаю.
Если это T-тест, как мне вычислить его p-значение? Я хотел бы вычислить его сам, а не использовать функцию R / Python / Excel (я уже знаю, как это сделать), поэтому сначала я должен установить правильную формулу.
- Как вычислить p-значение? (то есть, не используя функцию R / Python / Excel или просмотр таблицы p-значений, но фактически вычисляя ее на основе формулы, потому что я хочу знать, что я делаю)
- Как определить порог значимости на основе размера моей выборки? (формула была бы хороша)