Многие PDF-файлы варьируются от минус до положительной бесконечности, но некоторые средства определены, а некоторые нет. Какая общая черта делает некоторые вычислимыми?
Многие PDF-файлы варьируются от минус до положительной бесконечности, но некоторые средства определены, а некоторые нет. Какая общая черта делает некоторые вычислимыми?
Ответы:
Среднее распределение определяется в терминах интеграла (я напишу его так, как будто для непрерывного распределения - скажем, как интеграл Римана - но проблема применима в более общем смысле; мы можем перейти к интеграции Стилтьеса или Лебега, чтобы разобраться с это правильно и все сразу)
Но что это значит? Это фактически сокращение для
или
(хотя вы можете сломать его где угодно, а не только в 0)
Проблема возникает, когда пределы этих интегралов не являются конечными.
Так, например, рассмотрим стандартную плотность Коши, которая пропорциональна ... обратите внимание, что
пусть , поэтому d u = 2 x
что не конечно. Предел в нижней половине также не конечен; ожидание, таким образом, не определено.
Или, если бы мы имели в качестве нашей случайной величины абсолютное значение стандартного Коши, все его ожидание было бы пропорционально тому пределу, который мы только что рассмотрели (т.е. ).
С другой стороны, некоторые другие плотности продолжаются "до бесконечности", но их интеграл имеет предел.
Другие ответы хороши, но могут не убедить всех, особенно людей, которые смотрят на распределение Коши (с ) и говорят, что все еще интуитивно очевидно, что среднее значение должно быть нулевым.
Причина, по которой интуитивный ответ неверен с математической точки зрения, связана с теоремой Римана о перестановке (видео) .
Эффективно то, что вы делаете, когда смотрите на Коши и говорите, что среднее «должно быть равно нулю» - это то, что вы разделяете «центр» на ноль, а затем утверждаете моменты баланса двух размеров. Или, другими словами, вы неявно делаете бесконечную сумму с «половиной» слагаемых, положительных (моменты в каждой точке справа) и «половиной» слагаемых, отрицательных (моменты в каждой точке слева), и утверждаете это суммы до нуля. (Для технически мыслящих: )
Теорема Римана о перестановке гласит, что этот тип бесконечной суммы (один с положительными и отрицательными членами) является непротиворечивым только в том случае, если два ряда (только положительные и только отрицательные) сходятся, когда взяты независимо. Если обе стороны (положительная и отрицательная) расходятся сами по себе, вы можете придумать порядок суммирования терминов так, чтобы он суммировался с любым числом. (Видео выше, начиная с 6:50)
Итак, да, если вы выполните суммирование сбалансированным образом от 0 до, первые моменты из распределения Коши аннулируются. Однако (стандартное) определение среднего не обеспечивает такой порядок суммирования. Вы должны быть в состоянии суммировать моменты в любом порядке и иметь одинаковую силу. Следовательно, среднее значение распределения Коши не определено - разумно выбирая, как вы суммируете моменты, вы можете сделать их «сбалансированными» (или нет) практически в любой точке.
Таким образом, чтобы определить среднее для распределения, каждый из двух моментных интегралов должен быть независимо сходящимся (конечным) вокруг предложенного среднего (что, когда вы делаете математику, на самом деле является просто еще одним способом сказать, что полный интеграл ( ) должен быть сходящимся). Если хвосты "толстые" достаточно, чтобы момент на одной стороне стал бесконечным, все готово. Вы не можете уравновесить это с бесконечным моментом на другой стороне.
Я должен упомянуть, что «противоинтуитивное» поведение таких вещей, как распределение Коши, полностью связано с проблемами, когда мы думаем о бесконечности. Возьмите распределение Коши и отрежьте хвосты - даже произвольно далеко, как в плюс / минус число xkcd - и (после повторной нормализации) вы внезапно получите что-то, что ведет себя хорошо и имеет определенное среднее значение. Проблема не в самих жирных хвостах, а в том, как эти хвосты ведут себя при приближении к бесконечности.
У генерала Абриала и Глен_б были прекрасные ответы. Я просто хочу добавить небольшую демонстрацию, чтобы показать вам, что среднее распределение Коши не существует / не сходится.
В следующем эксперименте вы увидите, что даже если вы получите большую выборку и вычислите эмпирическое среднее значение из выборки, цифры сильно отличаются от эксперимента к эксперименту.
set.seed(0)
par(mfrow=c(1,2))
experiments=rep(1e5,100)
mean_list_cauchy=sapply(experiments, function(n) mean(rcauchy(n)))
mean_list_normal=sapply(experiments, function(n) mean(rnorm(n)))
plot(mean_list_cauchy,ylim=c(-10,10))
plot(mean_list_normal,ylim=c(-10,10))
РЕДАКТИРОВАТЬ:
Как упоминалось в чате @ mark999, мы должны утверждать, что два используемых в эксперименте распределения имеют схожую «дисперсию» (я использую цитату потому, что дисперсия распределения Коши также не определена). Вот оправдание: их PDF похожи.
curve(dnorm, -8,8)
curve(dcauchy, -8,8)
По определению интеграла Лебега-Стилтьеса среднее существует, если:
https://en.wikipedia.org/wiki/Moment_(mathematics)#Significance_of_the_moments
Распределение Коши является замаскированной формой очень фундаментального распределения, а именно равномерного распределения по кругу. В формулах бесконечно малая вероятность, где это угловая координата. Вероятность (или мера) дуги является , Это отличается от равномерного распределения, though measures are indeed the same for arcs not containing . For example, on the arc from counter-clockwise to , the mean of the distribution on the circle is . But the mean of the uniform distribution on the corresponding union of two disjoint intervals, each of length , is zero.
Since the distribution on the circle is rotationally symmetric, there cannot be a mean, median or mode on the circle. Similarly, higher moments, such as variance, cannot make sense. This distribution arises naturally in many contexts. For example, my current project involves microscope images of cancerous tissue. The very numerous objects in the image are not symmetric and a "direction" can be assigned to each. The obvious null hypothesis is that these directions are uniformly distributed.
To disguise the simplicity, let be the standard unit circle, and let . We define as a function of by stereographical projection of the circle from onto the -axis. The formula is . Differentiating, we find . The infinitesimal probability is therefore , the usual form of the Cauchy distribution, and "Hey, presto!", simplicity becomes a headache, requiring treatment by the subtleties of integration theory.
In , we can ignore the absence of (in other words, reinstate ) for any consideration such as mean or higher order moment, because the probability of (its measure) is zero. So therefore the non-existence of mean and of higher moments carries over to the real line. However, there is now a special point, namely , which maps to under stereographic projection and this becomes the median and mode of the Cauchy distribution.