Лечение выбросов, вызванных куртозом

Мне было интересно, может ли кто-нибудь помочь мне с информацией о куртозе (т.е. есть ли способ преобразовать ваши данные, чтобы уменьшить его?)

У меня есть набор данных анкеты с большим количеством случаев и переменных. Для некоторых из моих переменных данные показывают довольно высокие значения эксцесса (то есть, распределение лептокуртов), что вытекает из того факта, что многие участники дали одинаковую оценку для переменной. У меня очень большой размер выборки, поэтому, согласно центральной предельной теореме, нарушения нормальности все равно должны быть в порядке.

Проблема, однако, заключается в том факте, что особенно высокие уровни куртоза приводят к ряду одномерных выбросов в моем наборе данных. Таким образом, даже если я преобразую данные или удаляю / корректирую выбросы, высокие уровни эксцессов означают, что следующие наиболее экстремальные показатели автоматически становятся выбросами. Я стремлюсь использовать (анализ дискриминантной функции). Считается, что DFA устойчив к отклонениям от нормы при условии, что нарушение вызвано асимметрией, а не выбросами. Кроме того, на DFA также, как говорят, особенно влияют выбросы в данных (Tabachnick & Fidel).

Есть идеи как обойти это? (Моя первоначальная мысль была о том, как контролировать куртоз, но разве это не хорошо, если большая часть моей выборки дает аналогичные оценки?)

— Кайл Браун
источник

Очевидный «здравый смысл» способ решения вашей проблемы заключается в

Получите заключение, используя полный набор данных. т.е. какие результаты вы объявите, игнорируя промежуточные вычисления?
Получите заключение, используя набор данных с удаленными "выбросами". т.е. какие результаты вы объявите, игнорируя промежуточные вычисления?
Сравните шаг 2 с шагом 1
Если нет разницы, забудь, что у тебя даже были проблемы. Выбросы не имеют отношения к вашему выводу . Выбросы могут повлиять на некоторые другие выводы, которые могут быть сделаны с использованием этих данных, но это не имеет отношения к вашей работе. Это чужая проблема.
Если есть разница, то у вас в основном вопрос «доверия». Являются ли эти «выбросы» реальными в том смысле, что они действительно представляют что-то в вашем анализе? Или «выбросы» плохи в том, что они происходят из какого-то «загрязненного источника»?

В ситуации 5 у вас в основном есть случай, когда какая-либо «модель», которую вы использовали для описания «популяции», неполна - есть детали, которые остались неуказанными, но которые имеют значение для выводов. Есть два способа решения этой проблемы, соответствующие двум сценариям «доверия»:

$P(D|\theta)$ $P(D|\theta)=\int P(\lambda|\theta)P(D|\theta,\lambda) d\lambda$
$P(D|\theta)$ $P(D|\theta)=G(D|\theta)u+B(D|\theta)(1-u)$

Можно показать, что большинство «стандартных» процедур являются приближениями к таким моделям. Наиболее очевидным является рассмотрение случая 1, в котором дисперсия была принята постоянной для наблюдений. Расслабив это предположение в распределении, вы получите распределение смеси. Это связь между "нормальным" и "t" распределениями. Нормаль имеет фиксированную дисперсию, в то время как «t» смешивается с различными дисперсиями, степень «смешивания» зависит от степеней свободы. Высокое DF означает низкое смешивание (выбросы маловероятны), низкое DF означает высокое смешивание (вероятны выбросы). Фактически, вы можете принять случай 2 как частный случай случая 1, где «хорошие» наблюдения являются нормальными, а «плохие» наблюдения - Коши (t с 1 DF).

— probabilityislogic
источник

Какой отличный ответ, @probabilityislogic

— Питер Флом

Просто уточняющее примечание: Оптимальная классификация требует знания истинных многомерных распределений. Если вы можете хорошо оценить эти распределения, то полученная классификационная функция будет почти оптимальной. Выбросы (на что указывает куртоз) действительно проблематичны, поскольку в регионе мало данных для оценки плотности. С многомерными данными проклятие размерности также способствует этой проблеме.

— Питер Вестфолл