Почему высокий положительный эксцесс проблематичен для проверки гипотез?


13

Я слышал (извините, не могу предоставить ссылку на текст, что мне сказали), что высокий положительный эксцесс остатков может быть проблематичным для точных проверок гипотез и доверительных интервалов (и, следовательно, проблем со статистическим выводом). Это правда, и если да, то почему? Не будет ли высокий положительный эксцесс остатков не указывать на то, что большинство остатков близко к остаточному среднему значению 0 и, следовательно, присутствуют менее крупные остатки? (Если у вас есть ответ, пожалуйста, попробуйте дать ответ с не очень углубленной математикой, так как я не очень склонен к математике).


4
Я предполагаю, что вы сосредоточены на моделях с идеальными условиями нормальных (гауссовских) ошибок. (Во многих других контекстах можно ожидать высокий эксцесс остатков.) Высокий эксцесс, скорее всего, будет означать распределение толще, чем в норме, поэтому некоторые очень высокие (+ или -) остатки. Даже если их много около нуля, это только хорошие новости, и это возможные плохие новости, которые требуют внимания. Но, в свою очередь, это может означать что угодно. Остаточный против построенного участка обычно более информативен.
Ник Кокс

Действительно, я сосредоточился на моделях с предположениями о нормальности.
DDK

Ответы:


15

[...] слышал, что высокий положительный эксцесс остатков может быть проблематичным для точных проверок гипотез и доверительных интервалов (и, следовательно, проблем со статистическим выводом). Это правда, и если да, то почему?

Для некоторых видов проверки гипотез это правда.

Не будет ли высокий положительный эксцесс остатков не указывать на то, что большинство остатков близко к остаточному среднему значению 0 и, следовательно, присутствуют менее крупные остатки?

Нет.

Похоже, вы смешиваете концепцию дисперсии с концепцией куртоза. Если бы дисперсия была меньше, то объединялась бы тенденция к большему количеству остатков и меньшему количеству остатков. Представьте, что мы сохраняем стандартное отклонение константой, пока мы меняем эксцесс (так что мы определенно говорим об изменениях, а не об отклонениях).

Сравните разные отклонения (но один и тот же эксцесс):

введите описание изображения здесь

с разным эксцессом, но одинаковой дисперсией:

введите описание изображения здесь

(изображения из этого поста )

Высокий эксцесс во многих случаях связан с более небольшими отклонениями от среднего - больше мелких остатков, чем при обычном распределении ... но чтобы сохранить стандартное отклонение на том же значении, мы также должны иметь больше большие невязки (потому что наличие более мелких невязок сделает типичное расстояние от среднего меньше). Чтобы получить больше как больших, так и малых остатков, у вас будет меньше «типичных размеров» остатков - примерно на одно стандартное отклонение от среднего значения.

это зависит от того, как вы определяете «малость»; Вы не можете просто добавить много больших остатков и удерживать дисперсию постоянной, вам нужно что-то, чтобы компенсировать это - но для некоторой заданной меры «маленький» вы можете найти способы увеличить эксцесс, не увеличивая эту конкретную меру. (Например, более высокий эксцесс не означает автоматически более высокий пик как таковой)

Более высокий эксцесс, как правило, сопровождается большим остатком, даже если вы держите дисперсию постоянной.

[Кроме того, в некоторых случаях концентрация небольших остатков может на самом деле привести к большей проблеме, чем дополнительная доля самых больших остатков - в зависимости от того, на что вы смотрите.]

В любом случае, давайте посмотрим на пример. Рассмотрим t-критерий с одной выборкой и размер выборки 10.

Если мы отвергаем нулевую гипотезу, когда абсолютное значение t-статистики больше, чем 2,262, тогда, когда наблюдения независимы, идентично распределены по нормальному распределению, а гипотетическое среднее является истинным средним населением, мы отклоним нулевое гипотеза 5% времени.

Рассмотрим конкретное распределение со значительно более высоким эксцессом, чем нормальное: 75% нашей популяции имеют свои значения, взятые из нормального распределения, а остальные 25% имеют свои значения, взятые из нормального распределения со стандартным отклонением, в 50 раз большим.

Если я рассчитал правильно, это соответствует эксцессу 12 (избыточный эксцесс 9). Полученное распределение намного более пиковое, чем нормальное, и имеет тяжелые хвосты. Плотность сравнивается с нормальной плотностью ниже - вы можете увидеть более высокий пик, но вы не можете увидеть более тяжелый хвост на левом изображении, поэтому я также нанес на график логарифм плотностей, который растягивает нижнюю часть изображение и сжимает верх, что облегчает видение как вершины, так и хвоста.

введите описание изображения здесь

Фактический уровень значимости для этого распределения , если вы осуществить «5%» один-образец Т-тест с ниже 0,9%. Это довольно драматично, и существенно понижает кривую мощности.n=10

(Вы также увидите существенное влияние на покрытие доверительных интервалов.)

Обратите внимание, что другое распределение с тем же самым эксцессом, что и это, будет иметь различное влияние на уровень значимости.


Так почему же процент отказов падает? Это связано с тем, что более тяжелый хвост приводит к нескольким крупным выбросам, что оказывает несколько большее влияние на стандартное отклонение, чем в среднем; это влияет на t-статистику, поскольку приводит к увеличению t-значений в диапазоне от -1 до 1, что снижает долю значений в критической области.

Если вы возьмете образец, который выглядит вполне согласующимся с тем, что он получен из нормального распределения, среднее значение которого находится достаточно далеко над предполагаемым средним значением, что оно значимо, а затем вы берете наблюдение, которое находится дальше всего над средним, и вытягиваете его еще дальше (то есть сделать среднее даже больше , чем при ), вы на самом деле сделать Т-статистика меньше .H0

Позволь мне показать тебе. Вот образец размера 10:

 1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23

Представьте, что мы хотим проверить его по (t-критерий с одной выборкой). Получается, что среднее значение выборки здесь составляет 2,68, а стандартное отклонение выборки составляет 0,9424. Вы получаете t-статистику 2,282 - только в области отклонения для теста 5% (p-значение 0,0484).H0:μ=2

Теперь сделайте это наибольшее значение 50:

      1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50

Ясно, что мы увеличиваем среднее значение, поэтому оно должно указывать на разницу даже больше, чем раньше, верно? Ну, нет, это не так. Т-статистика снижается . Сейчас оно составляет 1,106, а значение p довольно велико (около 30%). Что произошло? Что ж, мы увеличили среднее значение (до 7,257), но стандартное отклонение выросло за 15.

Стандартные отклонения немного более чувствительны к выбросам, чем средние значения - когда вы добавляете выброс, вы стремитесь сдвинуть t-статистику для одной выборки к 1 или -1.

Если есть вероятность нескольких выбросов, то же самое случается, только иногда они могут быть на противоположных сторонах (в этом случае стандартное отклонение становится еще более завышенным, а влияние на среднее значение уменьшается по сравнению с одним выбросом), поэтому t-статистика имеет тенденцию приближаться к 0.

Подобные вещи продолжаются с рядом других общих тестов, которые предполагают нормальность - более высокий эксцесс, как правило, связан с более тяжелыми хвостами, что означает больше выбросов, что означает, что стандартные отклонения завышены относительно средних, и поэтому различия, которые вы хотите уловить, имеют тенденцию получить "заболоченный" от воздействия выбросов на тесте. То есть малой мощности.


1
Вау, большое спасибо за очень четкий и продуманный ответ. Ваше время очень ценится!
DDK

Стоит также отметить, что, хотя распределение выборки по среднему значению в большой выборке не зависит от эксцесса (следовательно, фактический уровень значимости тестов, предполагающих нормальность для средних, сходится к номинальному уровню, обычно 0,05, как n-> бесконечность, для всех конечных эксцессов), то же самое не верно для тестов на дисперсии. Распределение предполагаемой дисперсии по большой выборке зависит от эксцесса, поэтому фактический уровень значимости классических, предполагающих нормальность тестов на дисперсию не сходится к номинальному уровню при n -> бесконечность, когда эксцесс отличается от нуля.
Питер

Кроме того, более высокий эксцесс, математически, не означает, что есть «более небольшие отклонения от среднего». Единственное, что он говорит вам наверняка, - это то, что в хвосте больше.
Питер

Вы не можете получить более большие отклонения и удерживать дисперсию постоянной, если вы также не сделаете более маленькие отклонения; если вы не удерживаете дисперсию постоянной, больше ваших отклонений становится меньше по сравнению с новым масштабом. Так что да, когда дело доходит до взгляда на куртоз, математика действительно говорит вам, что более большое влечет за собой меньшее.
Glen_b

@Peter Давайте возьмем в качестве стандартизированной . Куртоз - это , а монотонен в . Если я перемещаю вероятность дальше в хвост , некоторая вероятность должна двигаться к среднему (или я не могу удержать ). Точно так же, если я перемещу вероятность дальше в хвост и позволю дисперсии увеличиваться, будет шире, и поэтому, по крайней мере, для некоторых значений больше остальной части распределения будет стремиться попасть в эти границы ; как только вы стандартизируете новый ( доX κ = E ( Z 4 ) ZXκ=E(Z4)κZVar(Z)=1Xμ±kσkXXZκ1=E(Z2)κZVar(Z)=1Xμ±kσkXXZскажем), у вас есть более маленькие значения в этом прямом смысле.
Glen_b

4

Куртоз измеряет выбросы. Выбросы являются проблематичными для стандартных выводов (например, t-тесты, t-интервалы), которые основаны на нормальном распределении. Это конец истории! И это действительно довольно простая история.

Причина, по которой эта история не получила должного признания, заключается в том, что древний миф о том, что куртозис измеряет «остроту», сохраняется.

Вот простое объяснение, показывающее, почему куртоз измеряет выбросы, а не «пик».

Рассмотрим следующий набор данных.

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 1

Куртоз - это ожидаемое значение (z-значения) ^ 4. Вот (z-значения) ^ 4:

6,51, 0,30, 5,33, 0,45, 0,00, 0,30, 6,51, 0,00, 0,45, 0,30, 0,00, 6,51, 0,00, 0,00, 0,30, 0,00, 27,90, 0,00, 0,30, 0,45

Среднее значение составляет 2,78, и это оценка куртоза. (Вычтите 3, если вы хотите лишний эксцесс.)

Теперь замените последнее значение данных на 999, чтобы оно стало выбросом:

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

Теперь вот (z-значения) ^ 4:

0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00,0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98

Среднее значение составляет 18,05, и это оценка куртоза. (Вычтите 3, если вы хотите лишний эксцесс.)

Ясно, что только выбросы имеют значение. Ничто о «пике» или данных рядом с серединой не имеет значения.

Если вы выполняете стандартный статистический анализ со вторым набором данных, вам следует ожидать неприятностей. Большой эксцесс предупреждает вас о проблеме.

Вот документ, который разрабатывает:

Westfall, PH (2014). Куртоз как пик, 1905–2014. RIP The American Statistician, 68, 191–195.


Почему бы просто не использовать непараметрические тесты? Для этих типов проблем они, вероятно, будут лучше.
Карл

1
Согласитесь, это возможный путь, если вам нравится тестирование, которое быстро становится менее интересным в своей классической форме. Но это не совсем моя забота. Меня больше интересует вероятностное моделирование в целом. Одно из приложений: Возможно, вас действительно интересует среднее значение, например, в тех случаях, когда зависимая переменная представляет собой заработанные доллары, среднее значение процесса интереснее медианного процесса. Итак, что данные говорят вам о значении процесса, когда данные подвержены выбросам? Это сложная проблема, но важная, и моментальный эксцесс имеет отношение к ответу. Не сравнительные тесты.
Питер Уэстфолл,

Для распределения Коши усеченное среднее может быть лучшей мерой местоположения, чем медиана, а обычное среднее не будет мерой местоположения. Что использовать в качестве меры местоположения, зависит от того, что распределение. Примером, для которого эксцесс не был бы полезен в качестве индикатора, является равномерное распределение, для которого среднее экстремальное значение является лучшей мерой местоположения, чем как медиана, так и среднее значение.
Карл

Не в этом суть. Если вас интересуют итоги, например, доллары, тогда обычное среднее значение - это мера местоположения, которое вы хотите.
Питер Вестфол

Если у вас есть распределенная переменная Коши, вы можете указать общую сумму заработанных долларов, но среднее значение не будет особенно полезным показателем местоположения, означающим, что «ожидаемое значение» не имеет разумных ожиданий, связанных с ним.
Карл

-3

Куртоз также указывает на асимметричные хвосты. В двухстороннем тесте гипотезы один хвост будет длинным, а другой - коротким. Один из хвостов может быть> альфа, но <бета. Один хвост прошел бы p-значение, но другой не будет.

По сути, статистический вывод предполагает стандартную норму. Когда это не стандартная норма, вы можете обойтись выводом, основанным на более сложной механике вывода. Вы можете сделать нам вывод Пуассона, но с ненормальным распределением вы не можете использовать вывод, основанный на нормалах.

Наклон и куртоз являются мерой ненормальности. Мы учимся принимать средства и использовать нормальные распределения, прежде чем мы узнаем, что мы должны проверить на нормальность. Норма требует 36 или более точек данных из каждого измерения. Вы можете оценить в 20 точках данных, но у вас все еще будет перекос и эксцесс. Когда распределение приближается к нормальному, перекос и распределение исчезают.

Одно из объяснений определило куртоз как пик. Другой не сделал. Это нерешенный бой в это время. Куртоз - это четвертый момент, область. Я на не остроте вопроса.

Другая идея заключается в том, что при перекосе медиана наклоняется к моде, образующей треугольник. Наслаждаться.


1
Не ясно, добавляет ли это что-нибудь полезное и отличное к уже превосходным ответам. Он добавляет несколько загадочных утверждений, например: «обычно требуется 36 или более точек данных» (то есть 35 не в порядке? На чем основано это утверждение? «Асимметрия как пик». Я не думаю, что кто-либо заявляет об этом ». Статистический вывод предполагает стандартная норма ": не в целом. Куртоз - это четвертый момент, область: нет; куртоз, как здесь определено, представляет собой безразмерное соотношение, основанное на четвертом и втором моментах относительно среднего значения.
Ник Кокс

Четвертый момент - это интеграл, поэтому это область. Как эта область переводится в остроту или изгиб, теряется на мне.
Дэвид У. Локк

Типичным объяснением эксцесса является пик, но, на мой взгляд, это неправильно. Я отредактирую свой первоначальный ответ, чтобы изменить асимметрию как пик, чтобы сказать, что эксцесс - это ... Спасибо.
Дэвид В. Локк

Хвосты не симметричны. Я никогда не видел ничего о статистическом выводе, который рассматривал бы асимметричные хвосты. Риск куртоза возникает из-за того, что хвосты будут двигаться по мере сбора большего количества точек данных. Скос и эксцесс - это нехватка данных для достижения стандартного нормального значения.
Дэвид У. Локк

1
Не так: есть масса теории и приложений для экспоненциального, гамма, Вейбулла и многих других распределений, которые не являются нормальными.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.