Когда можно написать «мы предположили нормальное распределение» эмпирического измерения?


9

В преподавании прикладных дисциплин, таких как медицина, заложено, что измерения биомедицинских величин в популяции следуют нормальной «кривой колокола». Поиск из Google в строке «мы предполагали , нормальное распределение» возвращает результатов! Они звучат так: «учитывая небольшое количество экстремальных точек данных, мы предполагали нормальное распределение температурных аномалий» в исследовании изменения климата; или «мы предполагали нормальное распределение куриного вылупления даты» на возможно менее спорный документ о пингвинах; или «мы предполагали нормальное распределение шоков роста ВВП» ,23,900, ... и другие вещи).

Недавно я обнаружил, что ставлю под сомнение трактовку данных подсчета как обычно распределенных из-за их строго положительного характера. Конечно, данные подсчета дискретны, что делает их нормальность еще более искусственной. Но даже если оставить этот последний момент в стороне, почему непрерывные эмпирические измерения, такие как вес, рост или концентрация глюкозы, которые прототипически считаются «непрерывными», считаются нормальными? У них не может быть отрицательных реализованных наблюдений больше, чем счета!

Я понимаю, что когда стандартное отклонение существенно ниже среднего, что указывает на несколько отрицательных значений («проверка диапазона 95%»), это может быть практическим предположением, и частотные гистограммы могут поддерживать его, если не слишком искажены. Но вопрос не казался тривиальным, и быстрый поиск дал интересные вещи.

В « Природе» мы можем найти следующее утверждение в письме Д. Ф. Хита : «Я хотел бы отметить, что для статистического анализа определенных типов данных предположение о том, что данные получены из нормальной популяции, обычно неверно, и что альтернатива предположение о нормальном логарифмическом распределении лучше. Эта альтернатива широко используется статистиками, экономистами и физиками, но по некоторым причинам часто игнорируется учеными некоторых других дисциплин ».

Лимперт отмечает, что «логарифмически нормальная модель может служить приближением в том смысле, что многие ученые воспринимают нормальное значение в качестве действительного приближения в настоящее время» , отмечая при этом низкую степень соответствия нормальных критериев соответствия и сложность выбора правильное распределение эмпирически при работе с небольшими выборками.

Поэтому возникает вопрос: «Когда допустимо предположить нормальное распределение эмпирических измерений в прикладных науках без дополнительных подтверждающих данных?» И, почему другие альтернативы, такие как log-normal, не имеют и, вероятно, просто не собираются вступать в силу?


Ответ будет зависеть от того, что вы делаете, и от чувствительности к потенциальным отклонениям от нормальности (т. Е. Если вы проверяете равенство отклонений с помощью F-критерия отношения, вам лучше иметь распределения, которые очень близко к нормальному ... но если вы строите t-интервал для разницы в средних значениях с большими выборками, вам может вообще не понадобиться, чтобы они были очень близки к нормальному). ... и на вашу терпимость (или вашу аудиторию) к тому, какое влияние это окажет на вывод, который вы делаете.
Glen_b

Ответы:


6

Я считаю ваш вопрос действительно интересным. Давайте учтем некоторые вещи:

  1. Сказать, что наблюдаемая переменная непрерывна в реальной жизни, всегда будет неправильно, потому что очень трудно измерить непрерывно.
  2. N(μ,σ2)(;+)fX(x)x=μσx=μ+σ
  3. XY=log(X)

С учетом вышесказанного, говорить, что любая наблюдаемая переменная следует за нормальным или логарифмически нормальным распределением, звучит как-то безумно. На практике получается, что вы измеряете отклонения наблюдаемых частот от ожидаемых частот, если эта переменная получена из нормального (или любого другого распределения) населения. Если вы можете сказать, что эти отклонения являются просто случайными, потому что вы делаете выборку, то вы можете сказать что-то вроде того, что нет достаточных доказательств, чтобы отвергнуть нулевую гипотезу о том, что эта переменная исходит из нормальной совокупности , что переводится в то, как мы будем работать ( при условии, что) переменная следует нормальному распределению .

Отвечая на ваш первый вопрос, я не думаю, что есть кто-то настолько смелый, чтобы сказать, что переменная предполагается нормально распределенной без дополнительных доказательств . Чтобы сказать что-то подобное, вам понадобится хотя бы qq-график, гистограмма, тест на соответствие качества или их комбинация.

χ2


Спасибо за ваш ответ, который затрагивает многие ключевые моменты. Тем не менее, я склонен думать, что вещи в «реальном мире» прикладных наук менее структурированы, и прямая касательная часто используется для принятия нормальности.
Антони Пареллада

1
Что-то, что я не упомянул, - это другая часть истории нормального распределения: это предельное распределение стандартизации суммы iid случайных величин, как указано в теореме о центральном пределе. Если вы можете сказать, что ваша переменная является суммой многих случайных переменных, как в рассуждениях о броуновском движении, то вы можете сказать, что это нормальная случайная переменная. Это единственный действительный ярлык, который я знаю. Я могу включить это в ответ, если хотите.
тонлой
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.