Почему Т-статистике нужны данные для нормального распределения

11

Я смотрел на эту записную книжку , и я озадачен этим утверждением:

Когда мы говорим о нормальности, мы имеем в виду, что данные должны выглядеть как нормальное распределение. Это важно, потому что несколько статистических тестов полагаются на это (например, t-статистика).

Я не понимаю, зачем Т-статистике нужны данные для нормального распределения.

Действительно, Википедия говорит то же самое:

T-распределение Стьюдента (или просто t-распределение) - это любой член семейства непрерывных распределений вероятностей, возникающих при оценке среднего значения нормально распределенной совокупности

Однако я не понимаю, почему это предположение необходимо.

Ничто из его формулы не указывает на то, что данные должны соответствовать нормальному распределению:

Я немного посмотрел на его определение, но я не понимаю, почему условие необходимо.

mathematical-statistics normal-distribution

— Октавиан
источник

17

Требуемая информация находится в разделе «Характеристика» на вики-странице . -распределение с степенями свободы может быть определена как распределение случайной величины таким образом, что где представляет собой стандартное нормальное распределение случайная величина и является случайной величиной со степенями свободы . Кроме того, и должны быть независимыми. Таким образом, учитывая любые и которые следуют приведенному выше определению, вы можете получить случайную переменную, которая имеет $t$ $\nu$ $T$

T = \frac{Z}{\sqrt{V / ν}},

$T = \dfrac{Z}{\sqrt{V/\nu}} \,,$

Z

$Z$

V

$V$

χ^{2}

$\chi^2$

ν

$\nu$

Z

$Z$

V

$V$

Z

$Z$

V

$V$

t

$t$ распределение.

Теперь предположим, что распределяется в соответствии с распределением . Пусть имеет среднее значение и дисперсию . Пусть - среднее значение выборки, а - дисперсия выборки. Затем мы посмотрим на формулы: $X_1, X_2, \dots, X_n$ $F$ $F$ $\mu$ $\sigma^2$ $\bar{X}$ $S^2$

\frac{\bar{X} - μ}{S / \sqrt{n}} = \frac{\frac{\bar{X} - μ}{σ / \sqrt{n}}}{\sqrt{\frac{(n - 1) S^{2}}{(n - 1) σ^{2}}}} .

$\dfrac{\bar{X} - \mu}{S/\sqrt{n}} = \dfrac{\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{(n-1)\sigma^2}}} \,.$

Если обозначает нормальное распределение, то и, следовательно, . Кроме того, по теореме Кохрана . Наконец, с помощью применения теоремы Баса , и независимы. Это означает, что полученная статистика имеет распределение с степенями свободы. $F$ $\bar{X} \sim N(\mu, \sigma^2/n)$ $\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$ $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$ $\bar{X}$ $S^2$ $t$ $n-1$

Если исходное распределение данных не было нормальным, то точное распределение числителя и знаменателя не будет стандартным нормальным и , соответственно, и, таким образом, полученная статистика не будет иметь распределения. $F$ $\chi^2$ $t$

— Greenparker
источник

3

Мне всегда было довольно интересно, сколько математических технологий вкладывают в эти основополагающие результаты математической статистики.

— Мэтью Друри

3

Хороший пост. Однако нам не нужно вызывать эти большие теоремы, чтобы доказать независимость между и , а также распределение . Смотрите первый ответ этого поста.

\bar{X}

$\bar{X}$

S

$S$

χ^{2}

$\chi^2$

— Zhanxiong

2

Я думаю, что может быть некоторая путаница между статистикой и ее формулой, а не распределением и формулой. Вы можете применить формулу t-статистики к любому набору данных и получить «t-статистику», но эта статистика не будет распределяться в соответствии с распределением student-t, если данные не получены из нормального распределения (или, по крайней мере, не будут гарантированно будет; я предполагаю, что ненормальные распределения не приведут к распределению t-студента при применении формулы t-статистики, но я не уверен в этом). Причина этого заключается просто в том, что распределение t-статистики рассчитывается на основе распределения данных, которые ее сгенерировали, поэтому, если у вас другое базовое распределение, то вы не гарантируете, что такое же распределение будет для производной статистики.

— Acccumulation
источник