Проблема с вашей беседой с профессором связана с терминологией, есть недоразумение, которое мешает донести потенциально полезную идею. В разных местах вы оба делаете ошибки.
Итак, первое, на что нужно обратить внимание: важно четко понимать, что такое дистрибутив .
Нормальное распределение - это конкретный математический объект, который можно рассматривать как модель для бесконечной совокупности значений. (Никакая конечная популяция не может иметь непрерывного распределения.)
В общих чертах, то, что делает это распределение (как только вы задаете параметры), определяет (через алгебраическое выражение) пропорцию значений совокупности, которая находится в любом данном интервале на реальной линии. Немного менее свободно, он определяет вероятность того, что одно значение из этой совокупности будет лежать в любом данном интервале.
Наблюдаемый образец не имеет нормального распределения; образец может (потенциально) быть взят из нормального распределения, если таковое существует. Если вы посмотрите на эмпирический cdf образца, он будет дискретным. Если вы сделаете это (как в гистограмме), у образца будет «частотное распределение», но это не нормальное распределение. Распределение может рассказать нам некоторые вещи (в вероятностном смысле) о случайной выборке из совокупности, и выборка может также рассказать нам кое-что о совокупности.
Разумная интерпретация фразы типа «нормально распределенная выборка» * - это «случайная выборка из нормально распределенной популяции».
* (Как правило, я стараюсь не говорить это сам по причинам, которые, как мы надеемся, достаточно ясны здесь; обычно мне удается ограничиться вторым типом выражения.)
Определив термины (хотя все еще немного свободно), давайте теперь рассмотрим вопрос более подробно. Я буду заниматься конкретными частями вопроса.
нормальное распределение нужно иметь среднее значение = медиана = мода
Это, безусловно, условие нормального распределения вероятностей, но не требование к выборке, взятой из нормального распределения; образцы могут быть асимметричными, среднее значение может отличаться от среднего и так далее. [Однако мы можем получить представление о том, насколько далеко друг от друга мы можем разумно ожидать, если выборка действительно будет получена из нормальной популяции.]
все данные должны содержаться под кривой колокола
Я не уверен, что означает «содержаться под» в этом смысле.
и совершенно симметрично вокруг среднего.
Нет; Вы говорите о данных здесь, и выборка из (определенно симметричной) нормальной популяции сама по себе не будет идеально симметричной.
Поэтому, технически, в реальных исследованиях практически НЕТ нормальных распределений,
Я согласен с вашим выводом, но рассуждения не верны; это не является следствием того факта, что данные не являются абсолютно симметричными (и т. д.); это тот факт, что население не совсем нормально .
если перекос / эксцесс меньше 1,0, это нормальное распределение
Если она сказала это именно так, она определенно ошибается.
Отклонение выборки может быть намного ближе к 0, чем это (принимая «меньше чем», чтобы означать в абсолютной величине не фактическое значение), и избыточный эксцесс образца также может быть намного ближе к 0, чем это (они могут даже, случайно или (возможно, будет почти точно равен нулю), и все же распределение, из которого была взята выборка, легко может быть явно ненормальным.
Мы можем пойти дальше - даже если бы мы волшебным образом знали, что асимметрия населения и эксцесс были точно такими же, как у нормального человека, это все равно само по себе не говорило бы, что население было нормальным или даже что-то близким к нормальному.
Набор данных - это общее количество падений / год в случайной выборке из 52 домов престарелых, которая является случайной выборкой из большей популяции.
Распределение численности населения никогда не бывает нормальным. Счетчики дискретны и неотрицательны, нормальные распределения непрерывны и по всей реальной линии.
Но мы действительно сосредоточены на неправильной проблеме здесь. Вероятностные модели - это просто модели . Давайте не будем путать наши модели с реальными вещами .
Вопрос не в том, являются ли данные нормальными? (они не могут быть), и даже "население, из которого данные были получены нормально?" (это почти никогда не будет так).
Более полезный вопрос для обсуждения: «Насколько сильно повлияет мой вывод, если я буду относиться к населению как к нормально распределенному?»
На этот вопрос также сложнее ответить, и он может потребовать значительно больше работы, чем просмотр нескольких простых диагностических сообщений.
Статистика выборки, которую вы показали, не особенно несовместима с нормой (вы могли бы видеть статистику, подобную этой или «хуже» не так уж и редко, если бы у вас были случайные выборки такого размера из нормальной популяции), но это само по себе не означает, что фактическая популяция из которого был взят образец, автоматически «достаточно близко» к нормальному для некоторой конкретной цели. Было бы важно рассмотреть цель (на какие вопросы вы отвечаете) и надежность используемых для этого методов, и даже в этом случае мы все еще можем быть не уверены, что это «достаточно хорошо»; иногда может быть лучше просто не предполагать, что у нас нет веских оснований предполагать априори (например, на основе опыта с подобными наборами данных).
это НЕ нормальное распределение
Данные - даже данные, взятые из нормальной популяции - никогда не имеют в точности свойств населения; только из этих цифр у вас нет достаточных оснований для вывода, что население здесь ненормальное.
С другой стороны, мы также не имеем достаточно веских оснований утверждать, что он «достаточно близок» к нормальному - мы даже не рассматривали цель предположения о нормальности, поэтому мы не знаем, к каким распределительным функциям он может быть чувствителен.
Например, если бы у меня было две выборки для ограниченного измерения, которое, как я знал, не было бы сильно дискретным (не в основном принимающим только несколько различных значений) и достаточно близким к симметричному, я мог бы быть относительно счастливым использовать две выборки t-критерий при небольшом размере выборки; это умеренно устойчиво к умеренным отклонениям от допущений (несколько устойчиво к уровню, не настолько устойчиво к мощности). Но я бы был гораздо осторожнее относиться к причинно-следственной нормальности, например, при тестировании равенства спреда, потому что лучший тест в этом предположении довольно чувствителен к предположению.
Поскольку они оба находятся между критическими значениями -1 и +1, эти данные считаются нормально распределенными ».
Если это действительно критерий, по которому кто-то решает использовать нормальную модель распределения, то это иногда приводит вас к довольно плохому анализу.
Значения этих статистических данных дают нам некоторые подсказки о населении, из которого была взята выборка, но это совсем не то же самое, что предполагать, что их значения в любом случае являются «безопасным руководством» для выбора анализа.
Теперь рассмотрим основную проблему с помощью еще более точной формулировки такого вопроса, как у вас:
Весь процесс просмотра образца для выбора модели чреват проблемами - это изменяет свойства любого последующего выбора анализа в зависимости от того, что вы видели! Например, для проверки гипотезы, ваши уровни значимости, p-значения и мощность не все, что вы бы выбрали / рассчитали , потому что эти вычисления основаны на анализе, не основанном на данных.
См., Например, Gelman and Loken (2014), « Статистический кризис в науке », американский ученый , том 102, номер 6, стр. 460 (DOI: 10.1511 / 2014.111.460), в котором обсуждаются проблемы, связанные с таким анализом, зависящим от данных.