Причины для нормального распределения данных


19

Каковы некоторые теоремы, которые могут объяснить (то есть, в целом), почему данные реального мира могут нормально распределяться?

Есть два, о которых я знаю:

  1. Центральная предельная теорема (конечно), которая говорит нам, что сумма нескольких независимых случайных величин со средним и дисперсией (даже если они не распределены одинаково) имеет тенденцию быть нормально распределенной

  2. Пусть X и Y - независимые непрерывные RV с дифференцируемыми плотностями, так что их совместная плотность зависит только от + . Тогда X и Y нормальные.Икс2Y2

(кросс-пост от mathexchange )

Изменить: Чтобы уточнить, я не претендую на то, сколько данных реального мира обычно распространяется. Я просто спрашиваю о теоремах, которые могут дать представление о том, какие процессы могут привести к нормально распределенным данным.


7
Вы можете найти интересные связанные материалы в нашей теме на stats.stackexchange.com/questions/4364 . Чтобы избежать путаницы среди некоторых читателей, я хотел бы добавить (и я надеюсь, что это было ваше намерение), чтобы ваш вопрос не читался как предполагающий, что все или даже большинство фактических наборов данных могут быть адекватно аппроксимированы нормальным распределением. Скорее, в определенных случаях, когда выполняются определенные условия, может быть полезно использовать нормальное распределение в качестве системы отсчета для понимания или интерпретации данных: так какими могут быть эти условия?
whuber

Спасибо за ссылку! И это совершенно верно, спасибо за разъяснения. Я отредактирую это к оригинальному сообщению.
анонимно

@ user43228, « Есть, конечно, множество других распределений, возникающих в реальных проблемах , которые не выглядят нормально на всех. » askamathematician.com/2010/02/...
Pacerier

Ответы:


17

Многие предельные распределения дискретных RV (пуассоновых, биномиальных и т. Д.) Являются приблизительно нормальными. Подумай о Плинко. Почти во всех случаях, когда приблизительная нормальность имеет место, нормальность проявляется только для больших выборок.

Большинство реальных данных НЕ распространяются нормально. В статье Micceri (1989) под названием « Единорог, нормальная кривая и другие невероятные существа » было рассмотрено 440 крупномасштабных достижений и психометрических показателей. Он обнаружил много изменчивости в распределениях по их моментам и мало доказательств (даже приблизительных) нормальности.

В статье Стивена Стиглера, написанной в 1977 году, под названием « Работают ли надежные оценщики с реальными данными », он использовал 24 набора данных, собранных в ходе известных попыток 18-го века измерить расстояние от Земли до Солнца и 19-го века, измерить скорость света. Он сообщил об асимметрии проб и эксцессах в таблице 3. Данные носят тяжелый характер.

В статистике мы часто предполагаем нормальность, потому что она делает максимальное правдоподобие (или какой-либо другой метод) удобным. Однако две приведенные выше работы показывают, что это предположение часто носит сомнительный характер. Вот почему исследования надежности являются полезными.


2
Большая часть этого поста великолепна, но вводный абзац беспокоит меня, потому что его легко можно неправильно истолковать. Это , кажется , сказать - довольно явно - что в общем -то , «большая выборка» будет выглядеть нормально распределены. В свете ваших последующих замечаний я не верю, что вы действительно хотели сказать это.
whuber

Я должен был быть более ясным - я не предполагаю, что большинство реальных данных обычно распределяются. Но это отличный момент для поднятия. И я предполагаю, что вы имеете в виду, что биномиальное распределение с большим n является нормальным, а распределение Пуассона с большим средним нормальным. Какие еще распределения имеют тенденцию к нормальности?
анонимно

Спасибо, я отредактировал первый абзац. См., Например, Вальд и Вулфовиц (1944) для теоремы о линейных формах при перестановке. Т.е. они показали, что две выборки t-статистики при перестановке асимптотически нормальны.
bsbk

Распределение выборки не является «набором данных реального мира»! Возможно, у меня возникли трудности с явными несоответствиями в вашем посте из-за этой путаницы между распространением и данными. Возможно, это связано с отсутствием ясности в отношении того, какой «ограничивающий» процесс вы на самом деле имеете в виду.
whuber

3
Первоначальный вопрос заключался в том, чтобы объяснить «генеративно», как могут возникать нормальные реальные данные. Возможно, что реальные данные могут быть получены в результате биномиального или пуассоновского процесса, которые могут быть аппроксимированы нормальным распределением. Оператор попросил другие примеры, и тот, который пришел в голову, был распределением перестановок, которое асимптотически нормально (при отсутствии связей). Я не могу придумать, как из этого дистрибутива будут сгенерированы реальные данные, так что, может быть, это натянуто.
bsbk

10

Существует также теоретико-информационное обоснование использования нормального распределения. Учитывая среднее значение и дисперсию, нормальное распределение имеет максимальную энтропию среди всех вещественных распределений вероятностей. Есть много источников, обсуждающих эту собственность. Краткий можно найти здесь . Более общее обсуждение мотивации использования гауссовского распределения с участием большинства упомянутых выше аргументов можно найти в этой статье из журнала Signal Processing.


6
Это задом наперед, насколько я понимаю. Речь идет о том, как сделать предположение о нормальности в строго определенном смысле слабым предположением. Я не понимаю, что это означает о реальных данных. С таким же успехом можно утверждать, что кривые, как правило, прямые, потому что это простейшее предположение, которое вы можете сделать относительно кривизны. Эпистемология не ограничивает онтологию! Если ссылка, которую вы цитируете, выходит за рамки этого, просьба изложить аргументы.
Ник Кокс

3

В физике это CLT, который обычно упоминается в качестве причины для нормально распределенных ошибок во многих измерениях.

Два наиболее распространенных распределения ошибок в экспериментальной физике - нормальное и пуассоновское. Последнее обычно встречается при измерениях количества, таких как радиоактивный распад.

Еще одна интересная особенность этих двух распределений состоит в том, что сумма случайных величин из гауссовых и пуассоновских функций принадлежит гауссовским и пуассоновским.

Есть несколько книг по статистике в экспериментальных науках, таких как эта : Герхард Бом, Гюнтер Цех, Введение в статистику и анализ данных для физиков, ISBN 978-3-935702-41-6


0

CLT чрезвычайно полезен, когда делает выводы о таких вещах, как совокупность значений, потому что мы получаем это путем вычисления некоторой линейной комбинации набора отдельных измерений. Однако, когда мы пытаемся сделать выводы об отдельных наблюдениях, особенно будущих ( например , интервалы прогнозирования), отклонения от нормальности гораздо важнее, если мы заинтересованы в хвостах распределения. Например, если у нас есть 50 наблюдений, мы делаем очень большую экстраполяцию (и прыжок веры), когда говорим что-то о вероятности того, что будущее наблюдение будет как минимум на 3 стандартных отклонения от среднего значения.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.