Т-распределение с более тяжелым хвостом, чем нормальное распределение

10

В моих конспектах говорится:

Т-распределение выглядит нормально, хотя и с немного более тяжелыми хвостами.

Я понимаю, почему это выглядело бы нормально (из-за центральной предельной теоремы). Но мне трудно понять, как математически доказать, что у него более тяжелые хвосты, чем у нормального распределения, и есть ли способ измерить, насколько он тяжелее нормального распределения.

normal-distribution t-distribution heavy-tailed

— hmi2015
источник

12

Первое, что нужно сделать, это формализовать то, что мы подразумеваем под «более тяжелым хвостом». Можно условно посмотреть, насколько высока плотность в крайнем хвосте после стандартизации обоих распределений, чтобы иметь одинаковое местоположение и масштаб (например, стандартное отклонение):

(из этого ответа, который также имеет отношение к вашему вопросу )

[Для этого случая масштабирование в действительности не имеет значения; t все равно будет «тяжелее», чем нормальное, даже если вы используете очень разные весы; нормальное всегда опускается в конце концов]

Тем не менее, это определение - хотя оно работает хорошо для этого конкретного сравнения - не очень хорошо обобщает.

В более общем смысле, гораздо лучшее определение можно найти в ответе Уубера . Поэтому, если имеет более тяжелый хвост, чем , так как становится достаточно большим (для всех некоторого ), то , где , где - это cdf (для более тяжелых - справа, есть аналогичное очевидное определение с другой стороны). $Y$ $X$ $t$ $t>$ $t_0$ $S_Y(t)>S_X(t)$ $S=1-F$ $F$

Здесь он находится в логарифмическом масштабе и в квантильной шкале нормали, что позволяет нам увидеть более подробно:

Таким образом, «доказательство» более тяжелой хвостика будет включать сравнение cdf и показ того, что верхний хвост t-cdf в конечном итоге всегда лежит выше, чем у нормали, а нижний хвост t-cdf в конечном итоге всегда лежит ниже, чем у нормали.

В этом случае проще всего сравнить плотности, а затем показать, что из этого должно следовать соответствующее относительное положение файлов cdf (/ функций оставшихся в живых).

Так, например, если вы можете утверждать, что (при некотором заданном ) $\nu$

$x^2 - (\nu+1) \log(1+\frac{x^2}{\nu}) > 2\cdot\log(k)\qquad^\dagger$

для необходимой константы (функция ), для всех некоторого , тогда можно было бы установить более тяжелый хвост для также в определении в терминах большего (или большего на левый хвост). $k$ $\nu$ $x>$ $x_0$ $t_\nu$ $1-F$ $F$

$^\dagger$ (эта форма следует из разности логарифмов плотностей, если это имеет место для соблюдения необходимой взаимосвязи между плотностями)

[На самом деле это возможно показать для любого (не только для конкретного, который нам нужен, исходя из соответствующих констант, нормализующих плотность), поэтому результат должен сохраняться для нам нужно.] $k$ $k$

— Glen_b - Восстановить Монику
источник

1

График с (и, возможно , немного расширяющий ) может более четко демонстрировать более тяжелые хвосты, а также может работать с более высокими степенями свободы,

\log S (x)

$\log S(x)$

x

$x$

— Генри

1

@ Генри Я создал такой сюжет, но не был уверен, сколько он добавил, поэтому я не включил его. Я подумаю над тем, чтобы

— вставить

1

@ Генри, я включил сюжет.

— Glen_b

2

Одним из способов увидеть разницу является использование моментов $E\{x^n\}.$

«Более тяжелые» хвосты будут означать более высокие значения для четных моментов мощности (степень 4, 6, 8), когда дисперсия одинакова. В частности, момент 4-го порядка (около нуля) называется куртозом и в определенном смысле сравнивает тяжесть хвоста.

Подробности смотрите в Википедии ( https://en.wikipedia.org/wiki/Kurtosis ).

— Дакиан Бонта
источник

1

Хотя для распределения с или степенями свободы, эксцесс является бесконечным, в то время как с степенями свободы стандартное отклонение бесконечно, поэтому вы не можете рассчитать эксцесс, а с степенью свободы вы даже не можете рассчитать среднее или - й момент.

t

$t$

3

$3$

4

$4$

2

$2$

1

$1$

4

$4$

— Генри

3

@ Генри Тем не менее, эта идея хороша. Расширение CDF распределения Стьюдента вокруг показывает, что оно асимптотически пропорционально . Таким образом, существуют все абсолютные моменты веса, меньшие и все абсолютные моменты веса, превышающие расходятся. При нормальном распределении все абсолютные моменты существуют. Это обеспечивает определенную упорядоченность хвостов всех Студенческий распределения и нормального распределение. По сути, параметр дает один ответ на исходный вопрос о том, как измерить тяжесть хвоста.

t (ν)

$t(\nu)$

+ \infty

$+\infty$

x^{- ν}

$x^{-\nu}$

ν

$\nu$

ν

$\nu$

t

$t$

ν

$\nu$

— whuber

2

Вот формальное доказательство, основанное на функциях выживания. Я использую следующее определение «более тяжелого хвоста», вдохновленное википедией :

Случайная величина с функцией выживания имеет более тяжелые хвосты, чем случайная величина с функцией выживания если $Y$ $S_y(t)$ $X$ $S_x(t)$

lim_{t \to \infty} \frac{S_{y} (t)}{S_{x} (t)} = \infty

$\lim_{t\to\infty}\frac{S_y(t)}{S_x(t)} = \infty$

Рассмотрим случайную переменную распределенную как t Стьюдента со средним нулем, степенями свободы и масштабным параметром . Мы сравниваем это со случайной величиной . Для обеих переменных функции выживания дифференцируемы. Следовательно, $Y$ $\nu$ $a$ $X\sim\mathcal{N}(0,\sigma^2)$

\begin{aligned} lim_{t \to \infty} \frac{S_{y} (t)}{S_{x} (t)} & = lim_{t \to \infty} \frac{f_{y} (t)}{f_{x} (t)} = \exp lim_{t \to \infty} (\log f_{y} (t) - \log f_{x} (t)) \\ = \exp lim_{t \to \infty} (- \frac{ν + 1}{2} \log (1 + \frac{t^{2}}{ν a^{2}}) - (- \frac{1}{2 σ^{2}} t^{2}) + C) \\ = \exp (lim_{t \to \infty} - \frac{ν + 1}{2} \log (1 + \frac{t^{2}}{ν a^{2}}) - (- \frac{1}{2 σ^{2}} t^{2}) + C) \\ = \exp (lim_{t \to \infty} \frac{1}{2 σ^{2}} t^{2} - \frac{ν + 1}{2} \log (1 + \frac{t^{2}}{ν a^{2}}) + C) \\ = \exp (\frac{1}{2} lim_{u \to \infty} \frac{a^{2}}{σ^{2}} u - (ν + 1) \log (1 + \frac{u}{ν}) + C) \\ = \exp (\frac{1}{2} lim_{u \to \infty} u (\frac{a^{2}}{σ^{2}} - \frac{(ν + 1) \log (1 + \frac{u}{ν})}{u} + \frac{C}{u})) \end{aligned}

$\begin{align*} \lim_{t\to\infty}\frac{S_y(t)}{S_x(t)} &= \lim_{t\to\infty}\frac{f_y(t)}{f_x(t)} = \exp \lim_{t\to\infty}\left(\log f_y(t) - \log f_x(t)\right)\\ &=\exp \lim_{t\to\infty}\left(-\frac{\nu+1}{2}\log\left(1+\frac{t^2}{\nu a^2}\right) - \left(-\frac{1}{2\sigma^2}t^2\right)+C\right)\\ &=\exp\left(\lim_{t\to\infty}-\frac{\nu+1}{2}\log\left(1+\frac{t^2}{\nu a^2}\right) - \left(-\frac{1}{2\sigma^2}t^2\right)+C\right)\\ &=\exp\left(\lim_{t\to\infty}\frac{1}{2\sigma^2}t^2-\frac{\nu+1}{2}\log\left(1+\frac{t^2}{\nu a^2}\right)+C\right)\\ &=\exp\left(\frac{1}{2}\lim_{u\to\infty}\frac{a^2}{\sigma^2}u - (\nu+1)\log\left(1+\frac{u}{\nu}\right)+C\right)\\ &=\exp\left(\frac{1}{2}\lim_{u\to\infty}u\left(\frac{a^2}{\sigma^2} - \frac{(\nu+1)\log\left(1+\frac{u}{\nu}\right)}{u}+\frac{C}{u}\right)\right) \end{align*}$ Где мы подставили . Обратите внимание, что является константой, и Следовательно, по алгебраической предельной теореме

u = t^{2} / a^{2}

$u=t^2/a^2$

0 < a^{2} / σ^{2} < \infty

$0<a^2/\sigma^2<\infty$

lim_{u \to \infty} C / u = 0

$\lim_{u\to\infty} C/u = 0$

lim_{u \to \infty} \frac{(ν + 1) \log (1 + \frac{u}{ν})}{u} = lim_{u \to \infty} \frac{(ν + 1)}{(1) (1 + \frac{u}{ν}) (ν)} = 0

$\lim_{u\to\infty} \frac{(\nu+1)\log\left(1+\frac{u}{\nu}\right)}{u} = \lim_{u\to\infty} \frac{(\nu+1)}{(1)(1+\frac{u}{\nu})(\nu)} = 0$

lim_{t \to \infty} \frac{S_{y} (t)}{S_{x} (t)} = \exp (\frac{1}{2} lim_{u \to \infty} u (\frac{a^{2}}{σ^{2}} - (0) + (0))) = \infty

$\lim_{t\to\infty}\frac{S_y(t)}{S_x(t)} = \exp\left(\frac{1}{2}\lim_{u\to\infty} u\left(\frac{a^2}{\sigma^2} - (0) + (0)\right)\right) = \infty$

Важно отметить, что результат справедлив для произвольных (конечных) значений , и , поэтому вы можете столкнуться с ситуациями, когда распределение имеет меньшую дисперсию, чем нормальное, но при этом имеет более тяжелые хвосты. $a$ $\sigma^2$ $\nu$

— Уилл Таунс
источник

1

Просто отметим, что это «определение» более тяжелых хвостов не всегда приемлемо. Например, распределение N (0,1) по этому определению имеет более тяжелые хвосты, чем распределение .9999 * U (-1,1) + .0001 * U (-1000, 1000), даже если последнее распределение производит случайные значения до 175 стандартных отклонений от среднего, несмотря на ограниченную поддержку. Конечно, N (0,1) также дает такие значения, но с вероятностями значительно ниже того, что можно считать актуальным для практических целей.

— Питер