В преподавании прикладных дисциплин, таких как медицина, заложено, что измерения биомедицинских величин в популяции следуют нормальной «кривой колокола». Поиск из Google в строке «мы предполагали , нормальное распределение» возвращает результатов! Они звучат так: «учитывая небольшое количество экстремальных точек данных, мы предполагали нормальное распределение температурных аномалий» в исследовании изменения климата; или «мы предполагали нормальное распределение куриного вылупления даты» на возможно менее спорный документ о пингвинах; или «мы предполагали нормальное распределение шоков роста ВВП» ,, ... и другие вещи).
Недавно я обнаружил, что ставлю под сомнение трактовку данных подсчета как обычно распределенных из-за их строго положительного характера. Конечно, данные подсчета дискретны, что делает их нормальность еще более искусственной. Но даже если оставить этот последний момент в стороне, почему непрерывные эмпирические измерения, такие как вес, рост или концентрация глюкозы, которые прототипически считаются «непрерывными», считаются нормальными? У них не может быть отрицательных реализованных наблюдений больше, чем счета!
Я понимаю, что когда стандартное отклонение существенно ниже среднего, что указывает на несколько отрицательных значений («проверка диапазона 95%»), это может быть практическим предположением, и частотные гистограммы могут поддерживать его, если не слишком искажены. Но вопрос не казался тривиальным, и быстрый поиск дал интересные вещи.
В « Природе» мы можем найти следующее утверждение в письме Д. Ф. Хита : «Я хотел бы отметить, что для статистического анализа определенных типов данных предположение о том, что данные получены из нормальной популяции, обычно неверно, и что альтернатива предположение о нормальном логарифмическом распределении лучше. Эта альтернатива широко используется статистиками, экономистами и физиками, но по некоторым причинам часто игнорируется учеными некоторых других дисциплин ».
Лимперт отмечает, что «логарифмически нормальная модель может служить приближением в том смысле, что многие ученые воспринимают нормальное значение в качестве действительного приближения в настоящее время» , отмечая при этом низкую степень соответствия нормальных критериев соответствия и сложность выбора правильное распределение эмпирически при работе с небольшими выборками.
Поэтому возникает вопрос: «Когда допустимо предположить нормальное распределение эмпирических измерений в прикладных науках без дополнительных подтверждающих данных?» И, почему другие альтернативы, такие как log-normal, не имеют и, вероятно, просто не собираются вступать в силу?