Оригинальный пост пропускает пару основных моментов: (1) Никакие «данные» не могут быть нормально распределены. Данные обязательно дискретны. Правильный вопрос: «Является ли процесс, который произвел данные, нормально распределенным процессом?» Но (2) ответ на второй вопрос всегда «нет», независимо от того, что дает вам какой-либо статистический тест или другая оценка, основанная на данных. Нормально распределенные процессы производят данные с бесконечной непрерывностью, идеальной симметрией и точно заданными вероятностями в пределах диапазонов стандартного отклонения (например, 68-95-99.7), ни одно из которых никогда не может быть точно верным для процессов, которые дают данные, которые мы можем измерить любым измерительное устройство, которое мы, люди, можем использовать.
Таким образом, вы никогда не сможете считать данные нормально распределенными, и вы никогда не сможете считать процесс, который создал данные, точно точно распределенным процессом. Но, как указал Glen_b, это может не иметь большого значения, в зависимости от того, что вы пытаетесь делать с данными.
Статистика асимметрии и эксцесса может помочь вам оценить определенные виды отклонений от нормальности вашего процесса генерации данных. Это очень изменчивая статистика. Стандартные ошибки, приведенные выше, бесполезны, потому что они действительны только при нормальных условиях, что означает, что они полезны только как тест на нормальность, по существу бесполезное упражнение. Было бы лучше использовать начальную загрузку, чтобы найти se, хотя для получения точных se были бы необходимы большие выборки.
Кроме того, эксцесс очень легко интерпретировать, в отличие от приведенного выше поста. Это среднее (или ожидаемое значение) значений Z, каждое из которых переводится в четвертую степень. Большой | Z | значения являются выбросами и вносят большой вклад в куртоз. Маленький | Z | значения, где «пик» распределения, дают значения Z ^ 4, которые являются крошечными и по существу ничего не вносят в эксцесс. В своей статье https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ я доказал, что эксцесс очень хорошо аппроксимируется средним значением Z ^ 4 * I (| Z |> 1). Следовательно, эксцесс измеряет склонность процесса генерации данных к выбросам.