CLT (по крайней мере в некоторых из его различных форм) говорит нам , что в пределе при распределения единого стандартизированного образца средних ( ) сходится к нормальному распределению (при некоторых условиях).n → ∞Икс¯- μσ/ н√
CLT не говорит нам, что происходит при или .п = 50п = 50 , 000
Но, пытаясь мотивировать CLT, особенно когда не предлагается никаких доказательств CLT, некоторые люди полагаются на выборочное распределение для конечных выборок и показывают, что при взятии более крупных выборок распределение выборки становится ближе к обычный.Икс¯
Строго говоря, это не демонстрация CLT, это ближе к демонстрации теоремы Берри-Эссеена, поскольку она демонстрирует кое-что о скорости, с которой приходит подход к нормальности - но это, в свою очередь, приведет нас к CLT, поэтому служит достаточно хорошо в качестве мотивации (и на самом деле, часто что-то вроде Берри-Эссеена в любом случае ближе к тому, что люди действительно хотят использовать в конечных выборках, так что мотивация может в некотором смысле быть более полезной на практике, чем сама центральная предельная теорема) ,
Распределение этих выборочных средств будет нормальным.
Ну, нет, они были бы ненормальными, но на практике они были бы очень близки к нормальным (высоты немного наклонены, но не очень наклонены).
[Отметьте еще раз, что CLT действительно ничего не говорит нам о поведении выборочных средних для ; это то, к чему я стремился в моем предыдущем обсуждении Берри-Эссеена, в котором говорится о том, насколько далека от нормальной cdf функция распределения стандартизированных средних для конечных выборок]п = 50
Реальный пример, о котором я думаю, - это статистика по набору данных из 50 000 пользователей Твиттера. Этот набор данных, очевидно, не является повторяющимися выборками, это всего лишь одна большая выборка из 50000.
Для многих дистрибутивов среднее значение выборки из 50 000 элементов будет очень близко к нормальному распределению - но это не гарантируется, даже при n = 50 000, что у вас будет очень близко к нормальному распределению (если распределение отдельных элементов достаточно например, при искажении распределение выборочных средних может быть достаточно искаженным, чтобы сделать нормальное приближение несостоятельным).
(Теорема Берри-Эссеена привела бы нас к тому, что мы можем предвидеть, что именно эта проблема может возникнуть - и это наглядно происходит. Легко привести примеры, к которым применяется CLT, но для которых n = 50000 не является достаточно большой выборкой для стандартизированный образец означает быть близким к нормальному.)