Различия в определении куртоза и их интерпретация

Недавно я понял, что существуют различия в значениях эксцесса, предоставляемых SPSS и Stata.

См. Http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm.

Насколько я понимаю, интерпретация одного и того же будет другой.

Любой совет, как с этим бороться?

— Чезаре Каместр
источник

Я знал о первых двух формулах, и их довольно легко отличить; Я не видел эту третью формулу.

— Питер Флом

Ответы:

Три формулы

Три формулы для куртоза обычно используются разными программами. Я изложу все три формулы ( , и ) и программы, которые их используют. $g_{2}$ $G_{2}$ $b_{2}$

Первая формула и типичное определение , используемое во многих учебниках (это вторая формула в ссылке вы предоставили) , где обозначает моменты образца :

g_{2} = \frac{m_{4}}{m_{2}^{2}}

$g_{2}=\frac{m_{4}}{m_{2}^{2}}$

m_{r}

$m_{r}$

m_{r} = \frac{1}{n} \sum (x_{i} - \bar{x})^{r}

$m_{r}=\frac{1}{n}\sum(x_{i}-\bar{x})^{r}$

Иногда к этой формуле добавляется корректирующий член -3, так что нормальное распределение имеет эксцесс, равный 0. Формула эксцесса с термином -3 называется избыточным эксцессом (первая формула в указанной вами ссылке).

Вторая формула в (используется SAS, SPSS и MS Excel, это третья формула в ссылке вы предоставили)

G_{2} = \frac{k_{4}}{k_{2}^{2}} = \frac{n - 1}{(n - 2) (n - 3)} [(n + 1) g_{2} + 6]

$G_{2} = \frac{k_{4}}{k_{2}^{2}}= \frac{n-1}{(n-2)(n-3)}\left[(n+1)g_{2}+6\right]$

где - это эксцесс, определенный в первой формуле. $g_{2}$

Третья формула является (используется Minitab и BMDP)

b_{2} = \frac{m_{4}}{s^{4}} - 3 = {(\frac{n - 1}{n})}^{2} \frac{m_{4}}{m_{2}^{2}} - 3

$b_{2}=\frac{m_{4}}{s^{4}}-3=\left(\frac{n-1}{n}\right)^{2}\frac{m_{4}}{m_{2}^{2}}-3$

где - несмещенная выборочная дисперсия : $s^2$

s^{2} = \frac{1}{n - 1} \sum (x_{i} - \bar{x})^{2}

$s^2=\frac{1}{n-1}\sum(x_{i}-\bar{x})^2$

В Rэксцесс можно рассчитать с помощью kurtosisфункции из e1071пакета (ссылка здесь ). Опция typeопределяет, какая из трех формул используется для расчетов (1 = , 2 = , 3 = ). $g_{2}-3$ $G_{2}$ $b_{2}$

В этих двух статьях обсуждаются и сравниваются все три формулы: первая , вторая .

Краткое изложение различий между формулами

При использовании нормальное распределение имеет значение эксцесса 3, тогда как в формулах, включающих поправочный член -3 (т. и ), нормальное распределение имеет избыточный эксцесс 0. $g_{2}$ $G_{2}$ $b_{2}$
$G_{2}$ является единственной формулой, дающей несмещенные оценки для нормальных выборок (т.е. ожидание при нормальности равно нулю или ). $G_{2}$ $\mathbb{E}(G_{2})=0$
Для больших выборок разница между формулами незначительна и выбор не имеет большого значения.
Для небольших выборок из нормального распределения соотношение трех формул в терминах среднеквадратичных ошибок (MSE) : . Таким образом, имеет наименьшее значение, а самое большое (хотя только является беспристрастным). Это потому, что имеет наибольшую дисперсию из трех формул: . $\operatorname{mse}(g_{2})<\operatorname{mse}(b_{2})<\operatorname{mse}(G_{2})$ $g_{2}$ $G_{2}$ $G_{2}$ $G_{2}$ $\operatorname{Var}(b_{2})<\operatorname{Var}(g_{2})<\operatorname{Var}(G_{2})$
Для небольших выборок из ненормальных распределений соотношение трех формул в терминах смещения: . В терминах среднего квадрата ошибок: . Таким образом, имеет наименьшую среднеквадратичную ошибку и наименьшее смещение из трех формул. имеет наибольшую среднеквадратичную ошибку и смещение. $\operatorname{bias}(G_{2})<\operatorname{bias}(g_{2})<\operatorname{bias}(b_{2})$ $\operatorname{mse}(G_{2})<\operatorname{mse}(g_{2})<\operatorname{mse}(b_{2})$ $G_{2}$ $b_{2}$
Для больших выборок ( ) из ненормальных распределений $n>200$ соотношение трех формул в терминах смещения: . В терминах среднего квадрата ошибок: . $\operatorname{bias}(G_{2})<\operatorname{bias}(g_{2})<\operatorname{bias}(b_{2})$ $\operatorname{mse}(b_{2})<\operatorname{mse}(g_{2})<\operatorname{mse}(G_{2})$

Смотрите также страницу Википедии и страницу MathWorld о эксцесса.

— COOLSerdash
источник

Я бы назвал это хорошей, четкой интерпретацией «обычной истории». Я бы добавил, что термины «лептокуротик», «мезокуртик», «платикюртик» - это просто багаж, который мы должны оставить в 20-м веке: у нас есть мера, о которой мы должны думать количественно. Более серьезно, интерпретация, достигшая максимума по сравнению с плоской вершиной, просто не соответствует большому изменению возможных форм распределений, даже симметричных. Наконец, смещение на практике не сильно кусается, если вы не играете с неуместно маленькими сэмплами, но дисперсия действительно делает!

— Ник Кокс

Не могли бы вы уточнить итоговый пункт № 2? Очевидно, что является выборочной статистикой, но, очевидно, она не является тождественно нулевой для любого, кроме вырожденного распределения. Возможно, вы хотели сказать, что его ожидание равно нулю? (Кстати, что такое " " в формуле? возможно?)

G_{2}

$G_2$

γ_{2}

$\gamma_2$

g_{2}

$g_2$

— whuber

@whuber: Да, конечно, ожидание равно нулю. был реликтом от ранее ответа и должны быть (сейчас изменилось); Я отредактировал свой ответ довольно сильно.

G_{2}

$G_{2}$

γ_{2}

$\gamma_{2}$

g_{2}

$g_{2}$

— COOLSerdash

ОК, выглядит лучше. Я одобряю это, но надеюсь, что вы в конце концов удалите эту фразу «Для нормального распределения ».

G_{2} = 0

$G_2=0$

— whuber

Данная ссылка также говорит о SAS. Но на самом деле ничто в этом вопросе, за исключением, возможно, собственного внимания автора, не ограничивает его конкретными именованными программами.

Я думаю, что здесь необходимо выделить совершенно разные проблемы, некоторые из которых иллюзорны, а некоторые подлинны.

Некоторые программы делают, а некоторые нет, вычитают 3, так что сообщаемая мера куртоза составляет 3 для гауссовых / нормальных переменных без вычитания и 0 с вычитанием. Я видел людей, озадаченных этим, часто, когда разница оказывается, скажем, 2.999, а не точно 3.
Некоторые программы используют поправочные коэффициенты, разработанные для обеспечения того, чтобы эксцесс оценивался без смещения. Эти поправочные коэффициенты приближаются к 1, поскольку размер выборки становится больше. Поскольку куртоз плохо оценивается в небольших выборках, это не должно вызывать особой озабоченности. $n$

Таким образом, существует небольшая проблема с формулами: № 1 гораздо сложнее, чем № 2, но оба незначительны, если их понимать. Совет однозначно состоит в том, чтобы просмотреть документацию по используемой вами программе и, если нет документации, объясняющей такие подробности, немедленно отказаться от этой программы. Но тестовый пример, такой же простой как переменная (1, 2), дает эксцесс 1 или 4 в зависимости только от одного # (без поправочного коэффициента).

Затем возникает вопрос о толковании, но это гораздо более открытый и спорный вопрос.

Прежде чем мы перейдем к основной области обсуждения, часто сообщаемая, но малоизвестная проблема заключается в том, что оценки эксцесса ограничены как функция размера выборки. Я написал обзор в Коксе, Нью-Джерси. Пределы асимметрии образцов и эксцесс. Stata Journal 10 (3): 482-495. http://www.stata-journal.com/article.html?article=st0204

Резюме: асимметрия и эксцесс образца ограничены функциями размера выборки. В течение последних нескольких десятилетий пределы или их приближения неоднократно открывались вновь, но, тем не менее, остаются малоизвестными. Пределы придают смещение оценке и, в крайних случаях, подразумевают, что ни одна выборка не может быть точным свидетельством ее родительского распределения. Основные результаты объяснены в обзоре учебника, и показано, как Stata и Mata могут использоваться для подтверждения и изучения их последствий.

Теперь к тому, что обычно считается суть вопроса:

Многие люди переводят эксцесс как пик, но другие подчеркивают, что он часто служит мерой веса хвоста. Фактически, обе интерпретации могут быть разумной формулировкой для некоторых распределений. Почти неизбежно, что не существует простой словесной интерпретации куртоза: наш язык недостаточно богат для сравнения сумм четвертых степеней отклонения от среднего и сумм вторых степеней того же самого.

В небольшом и часто упускаемом из виду классическом материале Ирвинг Каплански (1945a) обратил внимание на четыре примера распределений с различными значениями эксцесса и поведения, не соответствующих некоторым дискуссиям о эксцессе.

Все распределения симметричны со средним 0 и дисперсией 1 и имеют функции плотности, для переменных и , $x$ $c = \sqrt{\pi}$

$(1)\ \ \ (1 / 3c) (9/4 + x^4) \exp(-x^2)$

$(2)\ \ \ (3 / (c \sqrt8)) \exp(-x^2 / 2) - (1 / 6c) (9/4 + x^4) \exp(-x^2)$

$(3)\ \ \ (1 / 6c) (\exp(-x^2 / 4) + 4 \exp(-x^2))$

$(4)\ \ \ (3 \sqrt3 / 16c) (2 + x^2) \exp(-3x^2 / 4)$

Куртоз (без вычитания) составляет (1) 2,75 (2) 3,125 (3) 4,5 (4) 8/3 2,667: сравните гауссово или нормальное значение 3. Плотность в среднем составляет (1) 0,423 (2) ) 0,387 (3) 0,470 (4) 0,366: сравните гауссово значение 0,399. $\approx$

Поучительно построить эти плотности. Пользователи Stata могут скачать мою kaplanskyпрограмму из SSC. Использование логарифмической шкалы для плотности может помочь.

Не вдаваясь в подробности, эти примеры подрывают любую простую историю о том, что низкий или высокий эксцесс имеет четкую интерпретацию с точки зрения пика или даже любого другого отдельного контраста.

Если имя Ирвинга Капланского звонит в колокольчик, это скорее всего потому, что вы знаете его работы в современной алгебре. Он (1917-2006) был канадским (позднее американским) математиком, преподавал и исследовал в Гарварде, Чикаго и Беркли, где в военное время учился в Группе прикладной математики Совета национальной обороны при Колумбийском университете. Капланский внес большой вклад в теорию групп, теорию колец, теорию операторных алгебр и теорию поля. Он был опытным пианистом и автором текстов и энтузиастом и ясным толкователем математики. Отметим также некоторые другие вклады в вероятности и статистику Капланского (1943, 1945b) и Капланского и Риордана (1945).

Капланский И. 1943. Характеристика нормального распределения. Анналы математической статистики 14: 197-198.

Капланский И. 1945а. Распространенная ошибка относительно куртоза. Журнал, только Американская статистическая ассоциация 40: 259.

Капланский И. 1945б. Асимптотическое распределение пробегов последовательных элементов. Анналы математической статистики 16: 200-203.

Капланский И. и Риордан Дж. 1945. Многократное сопоставление и прогоны символическим методом. Анналы математической статистики 16: 272-277.

— Ник Кокс
источник

+1 Интересные комментарии о Капланском, с чьей алгебраической работой я давно знаком.

— whuber

Ник, ваш комментарий: «На самом деле, две интерпретации (пик и замкнутость) могут быть разумной формулировкой для некоторых распределений». неверно и потому бесполезно, просто потому, что эксцесс не говорит вам ничего о «остроте». Серьезно, вы можете даже определить, что означает "пик"? И продолжение, если можно: учитывая ваше определение «пика» (при условии, что вы можете придумать его), как оно математически связано с куртозом?

— Питер

@Peter Westfall Если мы можем согласиться с тем, что куртоз - это то, что измеряет куртоз, то мой аргумент - просто аргумент Капланского, который основан на конкретных кривых и числовых результатах, а не на словесном спарринге, то есть, что более высокий эксцесс иногда идет с более высокими пиковыми плотностями, и наоборот для нижний эксцесс. Я нисколько не неравнодушен к понятию «пик», и когда я вынужден упростить слова, склонен утверждать, что на практике куртоз - это в основном история веса хвоста. Я думаю, что формулы здесь делают всю работу и несут весь статистический вес и находят словесную полемику менее полезной.

— Ник Кокс

Кроме того, я полагаю, что не может быть какой-либо простой характеристики эксцессов, кроме полностью симметричных распределений. Я не думаю, что кто-то вообще обязан определять пик; существует такое определение, как куртоз, а практические вопросы - как думать об этом и насколько он полезен.

— Ник Кокс

Утверждение «просто потому, что эксцесс не говорит вам ничего о пике» само по себе необоснованно. Пропущенные ссылки, безусловно, будут включать вашу статью в TAS, которая доступна для заинтересованных лиц, чтобы рассмотреть вашу более длительную дискуссию.

— Ник Кокс