Нормальное распределение и монотонные преобразования


9

Я слышал, что многие количества, которые встречаются в природе, обычно распределяются. Обычно это оправдано с использованием центральной предельной теоремы, которая гласит, что при усреднении большого числа случайных величин iid вы получаете нормальное распределение. Так, например, признак, который определяется аддитивным эффектом большого числа генов, может быть приблизительно нормально распределен, поскольку значения генов могут вести себя примерно как случайные переменные.

Что меня смущает, так это то, что свойство нормального распределения явно не является инвариантным при монотонных преобразованиях. Таким образом, если есть два способа измерения чего-либо, связанных монотонным преобразованием, они вряд ли будут нормально распределены (если только это монотонное преобразование не является линейным). Например, мы можем измерить размеры капель дождя по диаметру, площади поверхности или объему. Принимая одинаковые формы для всех капель дождя, площадь поверхности пропорциональна квадрату диаметра, а объем пропорционален кубу диаметра. Таким образом, все эти способы измерения не могут быть нормально распределены.

Поэтому мой вопрос заключается в том, должен ли конкретный способ масштабирования (т. Е. Конкретный выбор монотонного преобразования), при котором распределение становится нормальным, иметь физическое значение. Например, должны ли высоты нормально распределяться или квадрат высоты, или логарифм высоты, или квадратный корень высоты? Есть ли способ ответить на этот вопрос, понимая процессы, которые влияют на высоту?


Как я всегда понимал, центральная предельная теорема не постулирует что-либо об усреднении большого числа случайных величин. Скорее, в нем говорится, что при выборке средств распределение средств становится нормальным (независимо от распределения, лежащего в основе выборки). Поэтому я спрашиваю, имеет ли место предшествующий твой вопрос.
Хенрик

Но если среднее значение выборки становится нормальным независимо от распределения базового распределения, то это не то же самое, что сказать, что «усреднение большого числа случайных величин iid» дает нам нормальное распределение. Мне они кажутся эквивалентными утверждениями.

Не в моих глазах (но я хотел бы убедиться в обратном). В одном случае (который я имею в виду под CLT) вы берете образцы из одного дистрибутива. Их средства нормально распределены. То, что я понимаю из вопроса и цитаты «усреднить большое количество случайных величин iid», отличается: отдельные экземпляры из разных случайных переменных iid определяют (или составляют) признак. Следовательно, нет усреднения (то есть вычисления среднего значения) из одного распределения и, следовательно, нет применения CLT. Я думаю, что ответы mbq указывают на ту же проблему.
Хенрик

1
Что ж, распределение не обязательно должно быть одинаковым, если выполняются некоторые условия. Смотрите: en.wikipedia.org/wiki/...

1
@ Генрик Есть ли существенная разница между одной выборкой из каждого из N независимых и идентично распределенных RV и N независимых измерений одного RV?
walkytalky

Ответы:


5

Очень хороший вопрос Я чувствую, что ответ зависит от того, можете ли вы определить основной процесс, который приводит к данному измерению. Например, если у вас есть доказательства того, что рост представляет собой линейную комбинацию нескольких факторов (например, рост родителей, рост бабушек и дедушек и т. Д.), То было бы естественным предположить, что рост обычно распределен. С другой стороны, если у вас есть доказательства или, возможно, даже теория, что журнал высоты представляет собой линейную комбинацию нескольких переменных (например, журнал высоты родителей, журнал высоты бабушек и дедушек и т. Д.), То журнал высоты будет нормально распределен.

В большинстве ситуаций нам неизвестен основной процесс, определяющий интерес. Таким образом, мы можем сделать одну из нескольких вещей:

(a) Если эмпирическое распределение высот выглядит нормальным, то для дальнейшего анализа мы используем нормальную плотность, которая неявно предполагает, что высота является линейной комбинацией нескольких переменных.

(b) Если эмпирическое распределение не выглядит нормальным, то мы можем попробовать какое-то преобразование, предложенное mbq (например, log (height)). В этом случае мы неявно предполагаем, что преобразованная переменная (т. Е. Log (высота)) является линейной комбинацией нескольких переменных.

(c) Если (a) или (b) не помогают, тогда мы должны отказаться от преимуществ, которые дают нам CLT и допущение нормальности, и смоделировать переменную, используя другое распределение.


5

Масштабирование определенной переменной должно, когда это возможно, относиться к некоторому приемлемому масштабу, потому что это помогает сделать интерпретируемую полученную модель. Однако результирующее преобразование не обязательно должно иметь физическое значение. По сути, вы должны пойти на компромисс между нарушением предположения о нормальности и интерпретируемостью вашей модели. Что мне нравится делать в этих ситуациях, так это иметь исходные данные, данные, преобразованные таким образом, который имеет смысл, и данные, преобразованные таким образом, который является наиболее нормальным. Если данные, преобразованные таким образом, который имеет смысл, совпадают с результатами, когда данные преобразуются таким образом, который делает их наиболее нормальными, Я сообщаю об этом таким образом, который можно интерпретировать, при этом следует отметить, что результаты одинаковы в случае оптимально преобразованных (и / или нетрансформированных) данных. Когда нетрансформированные данные ведут себя особенно плохо, я провожу свой анализ с трансформированными данными, но прилагаю все усилия, чтобы сообщать результаты в нетрансформированных единицах.

Кроме того, я думаю, что в вашем утверждении есть неправильное представление о том, что «количества, встречающиеся в природе, обычно распределяются». Это справедливо только в тех случаях, когда значение «определяется аддитивным эффектом большого числа» независимых факторов. Таким образом, средства и суммы обычно распределяются независимо от базового распределения, из которого они черпают данные, а отдельные значения не должны распределяться нормально. Как было в примере, отдельные тиражи из биномиального распределения выглядят не совсем нормально, но распределение сумм из 30 тиражей из биномиального распределения выглядит довольно нормально.


5

Должен признать, что я не очень понимаю ваш вопрос

  • Ваш пример с каплями дождя не очень удовлетворителен, поскольку это не иллюстрирует тот факт, что гауссовское поведение исходит из «среднего значения большого числа случайных величин iid».

  • если интересующая вас величина представляет собой среднее значение которое колеблется вокруг среднего значения по Гауссу, вы также можете ожидать, что имеет гауссово поведение.Y 1 + + Y NX f(Y1)++f(YN)Y1++YNNf(Y1)++f(YN)N

  • если флуктуация вокруг его среднего значения приблизительно гауссова и мала, то так же, как и флуктуация вокруг его среднего (по разложению Тейлора)f ( X )Xf(X)

  • Не могли бы вы привести некоторые реальные примеры гауссовского поведения (в реальной жизни), полученного в результате усреднения: это не очень распространено! Поведение Гаусса часто используется в статистике как первое грубое приближение, потому что вычисления очень удобны. Поскольку физики используют гармоническое приближение, статистики используют гауссовское приближение.


принцип максимальной энтропии также является еще одной причиной, по которой используется распределение Гаусса. Например, каковы веские причины для использования гауссовских ошибок в линейной модели, кроме управляемости?
Алекк

5

Випуль, ты не совсем точен в своем вопросе.

Обычно это оправдано с использованием центральной предельной теоремы, которая гласит, что при усреднении большого числа случайных величин iid вы получаете нормальное распределение.

Я не совсем уверен, что это то, что вы говорите, но имейте в виду, что капли дождя в вашем примере не являются случайными переменными. Среднее значение, рассчитанное путем отбора определенного количества этих капель дождя, является случайной величиной, и, поскольку среднее значение рассчитывается с использованием достаточно большого размера выборки, распределение этого среднего значения является нормальным.

Закон больших чисел говорит, что значение этого среднего значения сходится к среднему значению населения (сильное или слабое в зависимости от типа конвергенции).

CLT говорит, что выборочное среднее, назовите его XM (n), который является случайной величиной, имеет распределение, скажем, G (n). Когда n приближается к бесконечности, это распределение является нормальным распределением. CLT - это конвергенция в распределении , а не базовая концепция.

Наблюдаемые вами (диаметр, площадь, объем) совсем не обязательно должны быть нормальными. Они, вероятно, не будут, если вы планируете их. Но выборочное среднее из всех трех наблюдений будет иметь нормальное распределение. И объем не будет кубом диаметра, а площадь не будет квадратом диаметра. Квадрат сумм не будет суммой квадратов, если только вам не повезет.


4

Просто CLT (или любая другая теорема) не утверждает, что каждая величина во вселенной нормально распределена. Действительно, статистики часто используют монотонные преобразования для улучшения нормальности, поэтому они могут использовать свои любимые инструменты.


4

Я думаю, что вы неправильно поняли (наполовину) статистику использования нормального распределения, но мне действительно нравится ваш вопрос.

Я не думаю, что это хорошая идея, чтобы систематически предполагать нормальность, и я признаю, что это когда-нибудь делается (возможно, потому что нормальное распределение поддается обработке, унимодально ...) без проверки. Следовательно, ваше замечание о монотонной карте отлично!

Однако мощное использование нормальности приходит, когда вы строите себе новую статистику, такую ​​как та, которая появляется, когда вы применяете эмпирическую противоположность ожидания: эмпирическое среднее . Следовательно, эмпирическое среднее и более общее сглаживание - вот что заставляет нормальность появляться везде ...


2

И случайная величина, и многие ее преобразования могут быть примерно нормальными; действительно, если дисперсия мала по сравнению со средним значением, может случиться так, что самые разнообразные преобразования выглядят вполне нормально.

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

4 гистограммы, показывающие почти нормальность

( нажмите для увеличения )

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.