[...] слышал, что высокий положительный эксцесс остатков может быть проблематичным для точных проверок гипотез и доверительных интервалов (и, следовательно, проблем со статистическим выводом). Это правда, и если да, то почему?
Для некоторых видов проверки гипотез это правда.
Не будет ли высокий положительный эксцесс остатков не указывать на то, что большинство остатков близко к остаточному среднему значению 0 и, следовательно, присутствуют менее крупные остатки?
Нет.
Похоже, вы смешиваете концепцию дисперсии с концепцией куртоза. Если бы дисперсия была меньше, то объединялась бы тенденция к большему количеству остатков и меньшему количеству остатков. Представьте, что мы сохраняем стандартное отклонение константой, пока мы меняем эксцесс (так что мы определенно говорим об изменениях, а не об отклонениях).
Сравните разные отклонения (но один и тот же эксцесс):
с разным эксцессом, но одинаковой дисперсией:
(изображения из этого поста )
Высокий эксцесс во многих случаях связан с более небольшими отклонениями от среднего - больше мелких остатков, чем при обычном распределении ... но чтобы сохранить стандартное отклонение на том же значении, мы также должны иметь больше большие невязки (потому что наличие более мелких невязок сделает типичное расстояние от среднего меньше). Чтобы получить больше как больших, так и малых остатков, у вас будет меньше «типичных размеров» остатков - примерно на одно стандартное отклонение от среднего значения.‡
‡ это зависит от того, как вы определяете «малость»; Вы не можете просто добавить много больших остатков и удерживать дисперсию постоянной, вам нужно что-то, чтобы компенсировать это - но для некоторой заданной меры «маленький» вы можете найти способы увеличить эксцесс, не увеличивая эту конкретную меру. (Например, более высокий эксцесс не означает автоматически более высокий пик как таковой)
Более высокий эксцесс, как правило, сопровождается большим остатком, даже если вы держите дисперсию постоянной.
[Кроме того, в некоторых случаях концентрация небольших остатков может на самом деле привести к большей проблеме, чем дополнительная доля самых больших остатков - в зависимости от того, на что вы смотрите.]
В любом случае, давайте посмотрим на пример. Рассмотрим t-критерий с одной выборкой и размер выборки 10.
Если мы отвергаем нулевую гипотезу, когда абсолютное значение t-статистики больше, чем 2,262, тогда, когда наблюдения независимы, идентично распределены по нормальному распределению, а гипотетическое среднее является истинным средним населением, мы отклоним нулевое гипотеза 5% времени.
Рассмотрим конкретное распределение со значительно более высоким эксцессом, чем нормальное: 75% нашей популяции имеют свои значения, взятые из нормального распределения, а остальные 25% имеют свои значения, взятые из нормального распределения со стандартным отклонением, в 50 раз большим.
Если я рассчитал правильно, это соответствует эксцессу 12 (избыточный эксцесс 9). Полученное распределение намного более пиковое, чем нормальное, и имеет тяжелые хвосты. Плотность сравнивается с нормальной плотностью ниже - вы можете увидеть более высокий пик, но вы не можете увидеть более тяжелый хвост на левом изображении, поэтому я также нанес на график логарифм плотностей, который растягивает нижнюю часть изображение и сжимает верх, что облегчает видение как вершины, так и хвоста.
Фактический уровень значимости для этого распределения , если вы осуществить «5%» один-образец Т-тест с ниже 0,9%. Это довольно драматично, и существенно понижает кривую мощности.п = 10
(Вы также увидите существенное влияние на покрытие доверительных интервалов.)
Обратите внимание, что другое распределение с тем же самым эксцессом, что и это, будет иметь различное влияние на уровень значимости.
Так почему же процент отказов падает? Это связано с тем, что более тяжелый хвост приводит к нескольким крупным выбросам, что оказывает несколько большее влияние на стандартное отклонение, чем в среднем; это влияет на t-статистику, поскольку приводит к увеличению t-значений в диапазоне от -1 до 1, что снижает долю значений в критической области.
Если вы возьмете образец, который выглядит вполне согласующимся с тем, что он получен из нормального распределения, среднее значение которого находится достаточно далеко над предполагаемым средним значением, что оно значимо, а затем вы берете наблюдение, которое находится дальше всего над средним, и вытягиваете его еще дальше (то есть сделать среднее даже больше , чем при ), вы на самом деле сделать Т-статистика меньше .ЧАС0
Позволь мне показать тебе. Вот образец размера 10:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23
Представьте, что мы хотим проверить его по (t-критерий с одной выборкой). Получается, что среднее значение выборки здесь составляет 2,68, а стандартное отклонение выборки составляет 0,9424. Вы получаете t-статистику 2,282 - только в области отклонения для теста 5% (p-значение 0,0484).ЧАС0: μ = 2
Теперь сделайте это наибольшее значение 50:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50
Ясно, что мы увеличиваем среднее значение, поэтому оно должно указывать на разницу даже больше, чем раньше, верно? Ну, нет, это не так. Т-статистика снижается . Сейчас оно составляет 1,106, а значение p довольно велико (около 30%). Что произошло? Что ж, мы увеличили среднее значение (до 7,257), но стандартное отклонение выросло за 15.
Стандартные отклонения немного более чувствительны к выбросам, чем средние значения - когда вы добавляете выброс, вы стремитесь сдвинуть t-статистику для одной выборки к 1 или -1.
Если есть вероятность нескольких выбросов, то же самое случается, только иногда они могут быть на противоположных сторонах (в этом случае стандартное отклонение становится еще более завышенным, а влияние на среднее значение уменьшается по сравнению с одним выбросом), поэтому t-статистика имеет тенденцию приближаться к 0.
Подобные вещи продолжаются с рядом других общих тестов, которые предполагают нормальность - более высокий эксцесс, как правило, связан с более тяжелыми хвостами, что означает больше выбросов, что означает, что стандартные отклонения завышены относительно средних, и поэтому различия, которые вы хотите уловить, имеют тенденцию получить "заболоченный" от воздействия выбросов на тесте. То есть малой мощности.