«Как правильно применить 68-95-99.7 к моему делу?»
Следует только ожидать, что это практическое правило для покрытия будет применяться в точности, только если вы (1) смотрите на всю (бесконечную) совокупность или теоретическое распределение вероятностей , и (2) распределение является совершенно нормальным .
Если вы возьмете случайную выборку размером 20, даже из действительно нормального распределения, вы не всегда обнаружите, что 95% данных (19 из 20 элементов) находятся в пределах 2 (или 1,960) стандартных отклонений от среднего. На самом деле, не гарантируется, что 19 из 20 предметов будут находиться в пределах 1,960 стандартных отклонений населения от среднего значения, или что 19 из 20 предметов находятся в пределах 1,960 стандартных отклонений выборки от среднего значения по выборке.
Если вы возьмете выборку данных из дистрибутива, который распределен не совсем нормально, опять-таки не стоит ожидать, что правило 68-95-99.7 будет применяться в точности. Но это может быть достаточно близко к этому, особенно если размер выборки велик (практическое правило «охват 99,7%» может не иметь особого смысла при размере выборки ниже 1000), а распределение достаточно близко к норме. Теоретически, многие данные, такие как рост или вес, не могут быть получены из точно нормального распределения, или это может означать небольшую, но ненулевую вероятность того, что они будут отрицательными. Тем не менее, для данных с приблизительно симметричным и унимодальным распределением, где средние значения являются более распространенными и чрезвычайно высокие или низкие значения снижаются по вероятности, модель нормального распределения может быть адекватной для практических целей.Если моя гистограмма показывает колоколообразную кривую, могу ли я сказать, что мои данные нормально распределены?
1/k2kстандартные отклонения от среднего. Это гарантирует, что по крайней мере 75% данных находятся в пределах двух стандартных отклонений от среднего, а 89% - в пределах трех стандартных отклонений. Но эти цифры являются теоретически гарантированным минимумом. Для многих распределений примерно в форме колокольчика вы обнаружите, что показатель покрытия с двумя стандартными отклонениями гораздо ближе к 95%, чем к 75%, и поэтому «практическое правило» из нормального распределения все еще полезно. С другой стороны, если ваши данные поступают из распределения, которое далеко не в форме колокола, вы можете найти альтернативную модель, которая лучше описывает данные и имеет другое правило покрытия.
(Единственное, что приятно в правиле 68-95-99.7, это то, что оно применяется к любому нормальному распределению, независимо от его параметров для среднего или стандартного отклонения. Аналогично, неравенство Чебышева применяется независимо от параметров или даже от распределения, хотя только дает нижние границы для покрытия. Но если вы применяете, например, усеченную нормальную или наклонную нормальную модель, то не существует простого эквивалента "68-95-99.7" покрытия, потому что это будет зависеть от параметров распределения .)